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Python 是 杰出 的 脚本 语言 ， 在 速度 、 
的 从 业者 也 选择 使 用 易于 上 手 、 功 能 强大 的 Python 语言 。 本 
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安全 性 和 可 扩展 性 等 方面 表现 出 众 。 在 机 器 学 习 领 域 ， 越 来 越 多 
节 依 次 介绍 无 监督 机 器 学 习 、 座 度 信 念 网 络 、 
络 、 半 监督 学 习 技术 、 文 本 特征 工程 ， 模 型 集成 方法 ， 以 及 其 他 一 些 实 








用 的 Python 机 器 学 习 工 具 。 除 了 理论 知识 与 代码 实现 ， 本 书 还 细致 讲解 了 分 析 和 解决 问题 的 思路 ， 极 有 具 启 


本 书 适合 Python 开发 人 员 、 分 析 师 和 数据 科学 家 阅读 。 
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你 好 ! 欢迎 阅读 这 本 基于 Python 的 高 级 机 器 学 习 指 南 。 你 很 可 能 是 因为 最 初 萌 发 的 兴趣 而 
翻 开 本 书 ， 但 并 不 确定 能 从 中 获得 什么 。 简 单 地 说 ,学 习 和 运用 机 器 学 习 技 术 从 未 像 现在 这 样 激 
动人 心 , 而且 , 在 机 器 学 习 领 域 中 工作 会 使 你 长 期 受益 。 要 想 了 解 更 高 级 的 数据 建 模 技 术 的 最 新 
知识 或 积累 应 用 这 些 技术 解决 难题 的 经 验 ， 本 书 便 是 你 的 绝 佳 选择 ! 











受 计算 能 力 持续 高 速 增长 (根据 摩尔 定律 ) 的 影响 ,机 器 学 习 已 经 从 曾经 的 研究 型 学 科 逐 渐 
演化 为 活跃 在 各 个 商业 领域 的 技术 。 这 导致 了 新 应 用 和 新 的 (或 重新 发 掘 的 ) 技术 大 量 涌现 ,也 
使 得 原本 不 为 大 众 所 熟 知 的 数据 科学 、 人 工 智能 和 机 器 学 习 等 概念 迅速 走 进 人 们 的 视野 ,并 成 为 
全 球 企业 战略 规划 的 一 部 分 。 


机 器 学 习 应 用 的 飞速 发 展 得 益 于 人 们 对 持续 创新 的 不 断 追 求 和 大 量 研究 资源 的 投入 。 这 些 先 
驱 开 发 的 技术 开拓 了 新 的 应 用 领域 , 并 让 大 众 进一步 了 解 了 这 些 技术 。 人 工 智能 和 机 融 学 习 在 个 
别 领域 的 应 用 革新 仍然 很 难 实现 , 但 有 些 则 已 经 成 为 现实 , 如 自动 驾驶 汽车 、 复 杂 图 像 的 识别 和 
修正 、 基 因 研 究 的 更 大 胆 尝试 ,而 最 为 普遍 的 可 能 是 在 线 商 店 、 电 子 邮件 收 件 箱 和 网 络 生活 中 逐 
渐 成 熟 的 个 性 化 内 容 推荐 。 


面 对 众多 可 能 性 , 在 数据 科学 家 专注 的 努力 下 , 这 个 行业 正经 历 着 虽 有 些 坎 坷 但 飞速 的 成 长 。 
不 但 数据 科学 家 和 人 工 智能 从 业者 的 数量 比 儿 年 前 (2014 年 初 ) 多 了 很 多 ， 而 且 高 端 机 器 学 习 
人 研究 的 解决 方案 也 变 得 更 开放 和 更 容易 获取 。 


谷歌 和 Facebook 的 研究 团队 逐渐 开始 共享 其 架构 、 语 言 、 模 型 和 工具 ， 以 期 它们 能 得 到 更 
多 数据 科学 家 的 应 用 和 改进 。 


机 器 学 习 社 区 已 经 足够 成 熟 , 能 够 不 断 创 造 或 重新 挖掘 许多 先进 算法 ,而 且 这 种 趋势 已 经 日 
益 明 显 。 更 准确 地 说 ， 曾 经 主要 属于 学 术 界 的 研究 方向 如 今 已 经 得 到 了 业界 的 高 度 重 视 。 成 果 之 
一 是 ,现在 出 现 了 很 多 跨越 业界 和 学 术 界 的 机 需 学 习 专家 。 另 一 个 成 果 是 ， 人 们 逐渐 认识 到 一 些 
高 级 算法 可 以 用 于 攻克 当今 的 一 些 前 沿 难题 。 随 着 时 间 的 推移 ,我 们 也 目睹 了 不 断 取得 的 新 进展 ， 
其 效果 越 来 越 好 ， 前 沿边 界 也 在 逐步 推进 。 
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综 上 所 述 ， 如 果 你 想 进入 数据 科学 领域 并 培养 机 噩 学 习 技能 , 那么 现在 就 是 最 好 的 时 机 。 有 
关 入 门 算法 ( 包括 聚 类 、 回 归 模 型 和 神经 网 络 架构 ) 及 其 工具 的 内 容 可 以 在 众多 在 线 课程 和 各 类 
博文 中 找到 。 虽 然 掌握 最 前 沿 的 数据 科学 技术 ( 包括 深度 学 习 、 半 监督 算法 和 集成 模型 ) 依然 有 
难度 , 但 这 些 技术 本 身 已 经 可 以 在 多 种 编程 语言 的 软件 库 中 使 用 了 。 你 需要 做 的 只 是 学 习 如 何 将 
理论 知识 与 实际 指导 相 结合 ， 从 而 正确 应 用 各 种 模型 ， 这 正 是 本 书 被 赋予 的 使 命 。 



































你 将 从 本 书 中 得 到 什么 


本 书 致力 于 解读 近年 来 出 现 的 一 些 高 级 建 模 技术 。 无 论 你 是 经 验 丰 富 的 数据 科学 家 , 还 是 想 
充分 利用 现 有 技能 进入 新 领域 的 开发 人 员 ， 都 可 以 通过 本 书 学 习 这 些 算法 。 


我 的 首要 目标 是 确保 你 能 够 理解 书 中 所 探讨 的 算法 。 其 中 一 些 算法 非常 环 手 , 而 且 它 们 与 统 
计 学 和 机 器 学 习 中 的 其 他 概念 紧密 相关 。 


强烈 建议 新 手 先 大 致 了 解 以 下 重要 概念 。 


口 包括 MLP 架构 在 内 的 神经 网 络 架 构 

D 包括 梯度 下 降 法 和 反 向 传播 算法 在 内 的 学 习 算 法 
D 网 络 模型 的 性 能 评估 指标 ， 如 均 方 根 误差 
口 均 值 取 类 


有 时 ， 本 书 对 所 涉及 的 主题 探讨 得 不 够 充分 。 因 为 本 书 的 内 容 范 围 较 广 ， 所 以 进度 会 略 快 。 
在 每 章 末尾 , 我 都 会 推荐 一 些 书 或 在 线 文章 作为 补充 阅读 材料 ,以 便 你 就 相关 知识 建立 更 广泛 的 
基础 。 在 阅读 本 书 的 过 程 中 ， 如 果 遇 到 任何 陌生 概念 ， 建 议 你 进行 一 些 额 外 的 阅读 ， 因 为 机 器 
学 习 的 知识 之 间 具 有 协同 的 关联 性 ; 掌握 得 越 多 , 就 越 容易 在 积累 新 的 知识 与 技能 时 理解 新 概念 。 


持续 积累 新 的 知识 与 技能 这 一 理念 对 于 本 书 要 达成 的 目标 至 关 重 要 。 每 章 都 会 介绍 一 种 或 多 
种 算法 ， 以 期 达成 以 下 目标 : 


口 从 高 层次 上 解释 某 算法 的 功能 、 适 合 解决 的 问题 及 其 应 用 方法 
口 浏览 算法 的 关键 部 分 ， 包 括 拓扑 结构 、 学 习 方 法 和 性 能 评估 
口 通过 评估 模型 输出 确定 如 何 提升 性 能 


除了 传授 知识 和 技能 , 本 书 还 希望 达到 一 个 更 重要 的 目的 : 讨论 和 传达 出 资深 机 器 学 习 从 业 
者 常见 的 一 些 品 质 。 其 中 一 种 品质 是 创造 力 ， 主 要 体现 在 定义 复杂 结构 和 处 理 特定 问题 中 。 另 一 
种 重要 品质 则 是 严谨 , 本 书 通 篇 强调 了 这 种 品质 , 特别 是 在 有 意义 的 目标 的 性 能 测定 和 早期 工作 
的 严格 评 佑 方面 。 


最 后 , 本 书 无 意 掩盖 挑战 数据 难题 时 的 现实 : 早期 试验 好 坏 参半 的 结果 、 大 量 的 反复 计算 和 
频繁 出 现 的 绝境 。 与 此 同时 ， 我 会 用 一 系列 示例 、 对 专业 方法 的 剖析 ， 以 及 更 符合 现实 的 难题 
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直到 本 书 末尾 ) 来 展示 如 何 用 具有 创造 性 、 可 靠 和 严谨 的 方法 破除 这 些 障 碍 ， 从 而 取得 有 意义 
的 结果 。 


希望 你 在 阅读 过 程 中 一 切 顺利 , 也 希望 你 能 够 在 解决 为 你 准备 的 问题 、 将 所 学 知识 应 用 于 新 
领域 或 新 数据 的 过 程 中 获得 乐趣 。 


我 们 现在 就 开始 吧 


本 书 导读 
第 1 章 ， 无 监督 机 器 学 习 ， 介 绍 了 如 何 用 无 监督 学 习 技 术 来 识别 数据 集 的 内 在 模式 与 结构 。 


第 2 章 , 深度 信念 网 络 , 解释 了 受 限 玻 尔 兹 曼 机 算法 和 深度 信念 网 络 算法 的 工作 原理 。 通 过 
学 习 这 一 章 , 你 将 了 解 如 何 应 用 这 些 算法 , 且 更 有 把 握 通 过 评估 输出 结果 来 实现 算法 模型 的 改进 
与 优化 。 


第 3 章 ， 堆 释 式 降 品 自 编码 机 ， 通 过 用 堆 铸 式 降 只 自 编码 机 学 习 高 维 输入 数据 的 特征 表示 ， 
进一步 提高 你 对 这 度 架构 的 掌握 程度 。 


第 4 章 ， 卷 积 神经 网 络 ， 展 示 了 如 何 应 用 卷 积 神经 网 络 ( Convnet )。 
第 5 章 ， 半 监督 学 习 , 阐释 了 如 何 应 用 多 种 半 监 督学 习 技 术 , 如 CPLE、 自 主 学 习 和 S3VM。 
第 6 章 , 文本 特征 工程 ,探讨 了 一 些 数据 预 处 理 技巧 ,用 于 显 车 提高 前 述 模型 的 性 能 和 有 效 性 。 


第 7 章 ， 特 征 工程 i， 展示 了 如 何 清除 或 缓解 数据 质量 问题 来 实现 数据 治理 ， 以 及 如 何 针对 
具体 的 算法 进行 数据 转换 ， 并 介绍 了 增强 数据 的 一 些 技巧 。 

第 8 章 ， 集 成 方法 ， 探 究 了 如 何 构建 更 复杂 的 集成 模型 ， 并 介绍 了 提升 模型 结果 稳健 性 的 
方法 。 

第 9 章 ， 其 他 Python 机 器 学 习 工 具 ， 回 顾 了 近期 数据 科学 家 使 用 的 最 佳 工 具 ， 阐 述 了 各 工 
具 的 优势 ， 并 以 贯穿 全 书 的 工作 过 程 讨论 了 如 何 配 合 前 文 介绍 的 工具 和 技术 来 应 用 这 些 工具 。 


附录 ， 代 码 运 行 要 求 ， 讨 论 了 本 书 所 需要 的 工具 ， 且 分 别 指明 了 每 一 章 所 需要 的 库 。 
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阅读 前 提 





本 书 所 使 用 的 数据 和 代码 都 是 公开 的 ， 包 括 开源 Python 库 和 框架 。 虽 然 每 一 章 的 示例 代码 
都 附 有 一 个 README 文件 ， 用 于 指明 运行 该 章 附 带 脚 本 中 的 代码 需要 安装 的 库 ， 但 我 还 是 会 将 
文件 内 容 整理 出 来 ， 以 便 你 查阅 。 





























早 安装 第 1 章 所 需要 的 库 ， 以 便 后 文 使 用 。 








读者 对 象 


建议 你 在 阅读 前 几 章 时 就 安装 好 所 需要 的 库 ， 以 便 运 行 后 续 各 章 中 的 代码 时 使 用 。 最 好 能 提 





本 书面 向 溜 望 了 解 近期 数据 科学 领域 中 最 新 的 进展 ， 以 提高 自身 技能 的 Python 开发 人 员 、 
分 析 师 和 数据 科学 家 。 例 如 ,如 果 你 想 构造 自己 的 图 片 或 文本 标注 解决 方案 ,或 者 想 要 参加 Kaggle 


大 赛 ， 那 么 本 书 就 是 为 你 而 写 ! 








如 果 具 备 一 定 的 Python 功底 并 了 解 机 咒 学 习 的 一 些 核心 概念 ， 那 么 你 将 可 以 更 轻松 地 阅读 


本 书 。 


排版 约定 




















本 书 采用 多 种 文本 样式 ， 以 表示 不 同类 型 的 信息 。 以 下 是 一 些 样式 的 例子 及 其 含义 。 
正文 中 的 代码 、 数 据 库 表 名 、 用 户 输入 将 按 如 下 样式 显示 : “通过 使 用 下 列 代 码 ， 我们 将 





PCA 应 用 到 手写 aigits 数据 集 。” 
代码 块 的 格式 如 下 所 示 : 


import numpy as np 





from sklearn.datasets import load digits 


import matplotlib.pyplot as plt 


from sklearn.decomposition import PCA 


from sklearn.preprocessing import scale 


from sklearn.lda import LDA 
import matplotlib.cm as cm 


digits = load digits() 
data = digits.data 


n_samples, n_features = data.shape 


n_digits = len(np.unique (digits.target)) 





labels = digits.target 


命令 行 输入 或 输出 的 格式 如 下 所 示 : 


[ 0.39276606 0.49571292 0.43933243 
0.55686854 0.4573401 0.49876358 


0.4772857426 


| 此 图 标 表 示警 告 或 重要 注释 。 


0.53573558 0.42459285 
0.50281585 0.4689295 ] 


吉 
(和 





< 
| 此 图 标 表 示 提示 或 技巧 。 | 


读者 反馈 

欢迎 你 随时 提供 阅读 反馈 ,告诉 我 们 你 对 本 书 的 看 法 。 读 者 反馈 对 我 们 很 重要 , 它 可 以 帮助 
我 们 开发 更 多 读者 能 够 真正 充分 利用 的 图 书 。 

如 有 常规 问题 的 反馈 ， 请 发 送 邮 件 至 feedback@packtpub.com， 并 在 主题 处 注 明 书 名 。 

如 果 你 擅长 某 个 话题 ， 而 且 愿意 撰写 相关 文章 或 投稿 ， 请 登录 www.packtpub.com/authors 阅 
读 我 们 的 作者 指南 。 
用 户 文 持 


现在 你 已 经 成 为 Packt 出 版 社 作品 的 拥有 者 ， 因 此 我 们 为 你 准备 了 一 系列 内 容 ， 以 帮助 你 充 
分 发 挥 所 购 图 书 的 作用 。 























下 载 示例 代码 

如 果 你 是 从 http://www.packtpub.com 网 站 购买 的 图 书 , 登录 自己 的 账号 后 就 可 以 下 载 所 有 已 
购 图 书 的 示例 代码 。 如 果 你 是 从 其 他 地 方 购买 的 图 书 ， 请 访问 http:/www.packtpub.com/support 
网 站 并 注册 ， 我 们 会 将 代码 文件 直接 发 送 到 你 的 电子 邮箱 。 

你 也 可 以 通过 以 下 步骤 下 载 代 码 文 件 。 

(1) 使 用 你 的 电子 邮箱 地 址 和 密码 在 我 们 的 网 址 上 登录 或 注册 。 

(2) 将 鼠标 移 到 页 面 上 方 的 SUPPORT 标签 。 

(3) 点 击 Code Downloads & Errata。 

(4) 在 Search 框 中 输入 书 名 。 

(5) 选择 你 需要 下 载 代码 文件 的 图 书 。 

(6) 在 下 拉 菜 单 中 选择 你 购买 本 书 的 途径 。 

(7) 点 击 Code Download 。 

下 载 文件 后 ， 确 保 使 用 以 下 工具 的 最 新 版 本 来 解压 或 提取 文件 夹 : 


口 WinRAR /7-Zip ( Windows ) 













































































OD Zipeg/iZip/ UnRarX (Mac ) 
口 7-Zip /PeaZip (Linux) 


本 书 代码 也 托管 在 GitHub 上 ， 访 问 https://github.com/bonzanini/Book-SocialMediaMiningPython 
即 可 获取 。Packt 拥有 丰富 的 图 书 和 视频 资源 ，GitHub 仓库 https://github.com/PacktPublishing/ 提 
供 了 这 些 资源 的 相关 代码 。 欢 迎 查 阅 ! 





下 载 本 书 的 彩色 图 片 


我 们 也 为 你 提供 了 一 份 PDF 文件 ， 其 中 包含 了 本 书 中 的 截屏 和 图 表 等 彩色 图 片 。 这 些 彩 色 
图 片 可 以 帮助 你 更 好 地 理解 输出 的 变化 。 下 载 地 址 : https://www.packtpub.com/sites/default/files/ 
downloads/AdvancedMachineLearningwithPython ColorImages.pdf。 





勘误 


虽然 我 们 竭力 确保 图 书 内 容 的 正确 性 , 但 错误 在 所 难免 。 如 果 你 在 我 们 出 版 的 任何 一 本 图 书 
中 发 现 了 文本 或 代码 错误 , 希望 你 能 告知 我 们 , 我 们 将 非常 感激 。 你 的 善举 足以 减少 其 他 读者 在 
阅读 出 错 内 容 时 的 纠结 和 不 快 ， 并 帮助 我 们 在 后 续 版 本 中 更 正 错误 。 如 果 你 发 现任 何 错误 , 请 访 
问 http:/www.packtpub.com/submit-errata， 选 择 相应 图 书 ， 点 击 Errata Submission Form 链接 ， 并 
输入 有 关 错 误 的 具体 信息 。" 提 交 的 错误 得 到 验证 后 ， 我 们 就 会 接受 你 的 建议 ， 并 将 该 处 错误 信 
息 上 传 到 我 们 的 网 站 或 添加 到 已 有 勘误 表 的 相应 位 置 。 


访问 https:/www.packtpub.com/books/content/support 并 在 搜索 框 中 输入 书 名 ， 即 可 查看 该 图 
书 已 有 的 勘误 信息 。 这 部 分 信息 会 在 Errata 部 分 显示 。 
































反 盗 版 

任何 媒体 都 会 面临 版 权 内 容 在 互联 网 上 的 盗版 问题 ，Packt 也 不 例外 。Packt 非常 重视 版 权 保 
护 。 如 果 你 发 现 我 们 的 作品 在 互联 网 上 被 非法 复制 , 不 管 以 什么 形式 ,都 请 立即 为 我 们 提供 相关 
网 址 或 网 站 名 称 ， 以 便 我 们 进行 补救 。 

请 将 疑似 盗版 材料 的 网 址 发 送 到 copyright@packtpub.com。 

你 的 反 盗版 行动 就 是 在 保护 作者 和 出 版 社 , 只 有 这 样 , 我 们 才能 继续 以 优质 内 容 回 馈 像 你 这 
样 的 热心 读者 。 



































Q@ 本 书 中 文 版 勘误 请 到 https://www.ituring.com.cn/book/1941 查看 和 提交 。 一 一 编者 注 








于 
| 
~ 





问题 


如 果 对 本 书 存 有 任何 方面 的 疑问 ， 可 以 通过 questions@packtpub.com 邮箱 联系 我 们 ， 我 们 将 


个 


尽力 为 你 答疑 解 惑 。 
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方案 时 ， 总 是 能 够 取得 成 功 。 












































我 的 读者 。 若 想 掌握 本 书 的 主题 ， 没 有 比 现 在 更 好 的 时 机 了 。 
恰当 的 模型 来 抓 住 机 会 。 和 希望 你 在 寻求 解决 














电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 
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无 监督 机 顺 学 习 








本 童 将 介绍 如 何 用 无 监督 学 习 技 术 来 识别 数据 集中 的 模式 和 结构 。 


无 监督 学 习 是 用 于 探索 性 分 析 的 一 系列 很 有 价值 的 技术 。 它们 能 够 挖掘 出 隐藏 在 数据 集中 的 
模式 和 结构 , 获取 有 用 的 信息 或 为 进一步 分 析 提 供 指 导 。 拥 有 一 套 可 靠 的 无 监督 学 习 工 具 集 至 关 
重要 ， 你 可 以 应 用 它们 将 陌生 或 复杂 的 数据 集 分 解 为 可 用 信息 。 


我 们 将 先 从 主 成 分 分 析 ( principal component analysis ，PCA ) 这 个 基本 的 数据 操作 技术 开始 ， 
并 结合 一 系列 的 降 维 应 用 。 接 着 探讨 一 项 应 用 广泛 旦 简单 易 用 的 无 监督 学 习 技术 一 一 k 均值 聚 类 。 
随后 会 讨论 一 种 能 将 复杂 数据 集 映射 到 二 维 的 拓扑 聚 类 方法 一 一 Kohenen 提出 的 自 组 织 映 射 
( self-organizing map, SOM )。 


本 章 会 用 一 些 篇 幅 来 探讨 如 何 有 效应 用 这 些 技 术 将 高 维 数据 集 整 合 为 易于 处 理 的 形式 。 我 们 
将 使 用 UCI 手写 数字 数据 集 来 展示 每 种 算法 的 技术 应 用 。 在 探讨 和 应 用 每 种 技术 的 过 程 中 ， 我 
们 将 回顾 一 些 实际 应 用 和 方法 论 的 问题 , 尤其 是 如 何 校准 和 验证 每 种 技术 , 以 及 哪些 性 能 评测 方 
法 是 有 效 的 。 综 上 ， 我 们 将 按 顺序 讨论 以 下 主题 : 
口 主 成 分 分 析 
口 大 均值 聚 类 
口 自 组 织 映射 


1.1 主 成 分 分 析 
为 了 有 效 处 理 高 维 数据 集 , 我 们 必须 有 一 套 技术 能 将 维度 降 至 可 处 理 的 水 平 。 降 维 的 优势 包 


括 : 可 以 在 二 维 空间 中 对 多 维 数据 进行 可 视 化 、 用 最 少 的 特征 描述 数据 集 所 包含 的 信息 ,以 及 在 
某 些 情况 下 识别 模型 向 量 的 共 线 性 。 















































在 机 器 学 习 的 背景 下 ， 所 谓 的 共 线 性 是 指 模型 特征 共有 的 接近 线性 的 关系 。 
这 些 特征 一 般 用 处 不 大 ,原因 很 明显 ,相关 特征 不 大 可 能 比 它们 独立 时 提供 更 多 
的 信息 量 。 而且， 共 线 特征 可 能 会 突出 局 部 极 小 值 或 给 出 其 他 错误 的 线索 。 




















好 先 回顾 一 下 该 技术 、 理 解 其 背后 的 理论 ， 并 编写 能 够 有 效应 用 主 成 分 分 析 的 Python 代码 。 














1.1.1 主 成 分 分 析 入 门 

主 成 分 分 析 是 一 种 强大 的 分 解 方法 , 它 能 够 将 变量 极 多 的 数据 集 分 解 为 一 系列 正 交 向 量 。 取 
足够 多 的 正 交 向 量 ， 就 能 够 解释 数据 集中 近乎 全 部 的 方差 了 。 从 本 质 上 来 说 ,集合 中 的 这 些 正 交 
向 量 就 是 数据 集 的 精简 版 描述 。 主 成 分 分 析 用 途 广泛 ， 很 值得 我 们 花 时 间 学 习 。 
































这 里 稍微 提醒 一 下 , 当 分 解 后 的 向 量 维度 小 于 原始 数据 集 的 变量 个 数 时 , 往 

往 会 损失 一 些 原始 数据 集中 的 信息 。 若 向 量 数目 足够 多 ,这 种 损失 通常 很 小 ,但 

> 如 果 将 变量 极 多 的 数据 集 分 解 成 很 少 的 向 量 ， 那 么 就 会 损失 “惨重 ”。 因 此 , 在 
应 用 主 成 分 分 析 时 ， 必 须 考 虑 对 数据 集 有 效 建 模 所 需要 的 向 量 数 目 。 


主 成 分 分 析 通 过 逐一 辨别 数据 集中 方差 最 大 的 方向 ( 主 成 分 ) 来 提取 向 量 ， 步 又 如 下 所 示 : 


(1) 找 出 数据 集 的 中 心 点 ; 
(2) 计算 数据 的 协 方差 矩阵 ; 
(3) 计算 协 方差 矩阵 的 特征 向 量 ; 

(4) 将 特征 向 量 标准 正 交 化 ; 

(5) 计算 每 个 特征 向 量 表示 的 方差 比例 。 


我 们 来 简要 介绍 一 下 这 些 概 念 。 


口 协 方差 : 多 维 数据 的 方差 ， 两 个 或 多 个 变量 之 间 的 方差 。 一 维 或 一 个 变量 的 方差 可 由 一 
个 值 来 描述 ， 两 个 变量 之 间 的 方差 需要 用 一 个 2x2 的 和 矩阵 来 描述 ， 三 个 变量 之 间 的 方差 
需要 用 一 个 3x3 的 矩阵 来 描述 ， 以 此 类 推 。 因 此 ， 主 成 分 分 析 的 第 一 步 就 是 计算 协 方差 
矩阵 。 

口 特征 向 量 : 一 种 针对 数据 集 或 线性 变换 的 向 量 。 具 体 来 说 ， 这 种 向 量 的 方向 在 转换 前 后 
不 会 发 生变 化 。 为 便于 理解 ， 假 设 你 的 两 手 之 间 有 一 根 直 的 橡皮 筋 ， 你 伸展 橡皮 筋 ， 直 
到 它 绷 紧 为 止 。 特 征 向 量 正 是 伸展 前 和 伸展 过 程 中 不 会 发 生 方向 变化 的 向 量 ， 也 就 是 本 
例 中 直接 穿 过 橡皮 筋 中 心 从 一 只 手 到 男 一 只 手 的 向 量 。 

口 正 交 化 : 寻找 两 个 相互 正 交 (成 直角 ) 的 向 量 的 过 程 。 在 n 维 数据 空间 中 ， 正 交 化 的 过 

程 就 是 选取 一 系列 向 量 ， 然 后 转化 为 一 系列 正 交 向 量 。 

口 标准 正 交 化 : 对 积 进行 标准 化 的 正 交 化 过 程 。 

口 特征 值 :( 大致 相当 于 特征 向 量 的 长 度 ) 用 于 计算 由 每 个 特征 向 量 表示 的 方差 比例 ,该 比 
例 由 每 个 特征 向 量 的 特征 值 除 以 所 有 特征 向 量 的 特征 值 之 和 得 到 。 


















































































































































总 的 来 说 ， 协 方差 矩阵 用 于 计算 特征 向 量 ,标准 正 交 过 程 则 是 根据 特征 向 量 得 出 正 交 的 、 标 


准 化 向 量 。 





寺 征 值 最 大 的 特征 向 量 是 第 一 个 主 成 分 ， 其 他 成 分 的 特征 值 都 相对 较 小 。 这 样 一 来 ， 


主 成 分 分 析 算 法 就 能 够 将 数据 集 转化 为 用 新 的 低 维 坐标 系 来 表示 。 


1.1.2 ”应 用 主 成 分 分 析 


概略 地 回顾 了 主 成 分 分 析 算法 后 , 接 下 来 我 们 将 其 应 用 于 一 个 重要 的 Python 数据 集 , 即 UCI 
手写 数字 数据 集 (digits )， 它 是 作为 scikit-learn 的 一 部 分 发 布 的 。 


该 数据 
息 使 用 8x8 





这 些 映 
入 数据 集 ， 
目前 来 看 ， 

















集 包 含 了 来 自 44 位 作者 的 1797 个 手写 数字 。 对 这 些 作者 的 手写 数字 的 笔 压 和 位 置信 
的 点 阵 ， 经 过 两 次 重复 采样 后 ， 得 到 了 图 1-1 中 的 映射 。 
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射 可 以 转化 为 维度 为 64 的 特征 向 量 ， 从 而 作为 分 析 输 入 项 。 对 于 含有 64 个 特征 的 输 
我 们 往往 会 立即 想到 使 用 诸如 主 成 分 分 析 的 技术 ， 从 而 将 变量 减少 到 可 处 理 的 数量 。 
我 们 无 法 用 可 视 化 探索 来 有 效 地 分 析 数 据 集 。 








先 对 aigits 数据 集 应 用 主 成 分 分 析 技 术 ， 代 码 如 下 所 示 : 


import 
from s 
import 
from s 
from s 
from s 
import 


digits 
data = 


numpy as np 

klearn.datasets import load digits 
matplotlib.pyplot as plt 
klearn.decomposition import PCA 
klearn.preprocessing import scale 
klearn.lda import LDA 
matplotlib.cm as cm 





= load digits!() 
digits.data 


n_samples, n_features = data.shape 
n_digits = len(np.unique (digits.target)) 


labels 


= digits.target 
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这 上段 代码 完成 了 以 下 工作 。 


首先 , 它 加 载 了 一 系列 必要 的 库 , 包括 numpy 库 、scikit-learn 库 和 用 于 绘图 的 matplotlib 库 。 
其 中 scikit-learn 库 主要 包括 aigits 数据 集 、 主 成 分 分 析 算 法 和 数据 标准 化 函数 等 一 系列 相关 数 
据 、 算 法 和 函数 。 


接着 ， 开 始 准备 digits 数据 集 。 步 又 如 下 所 示 。 


口 首先 ， 在 构造 有 用 的 变量 前 加 载 数据 集 。 
口 创建 aata 变量 用 于 表示 数据 集 ， 并 根据 aigits 数据 集中 的 目标 向 量 计算 出 因 变量 的 类 
别 数 ( 因为 数字 取 值 范围 为 0~9， 所 以 n_gigits = 10 ) 并 存 为 变量 ， 以 供 后 续 分 析 使 用 。 
口 将 target 向 量 存 为 变量 ， 并 命名 为 labels ， 以 便 后 续 使 用 。 

口 以 上 变量 构造 均 是 为 了 简化 后 续 分 析 。 


准备 好 数据 集 后 ， 对 主 成 分 分 析 算 法 进行 初始 化 并 将 其 应 用 于 数据 集 。 


pca = PCA(n_components=10) 
data_r = pca.fit(data) .transform(data) 






























































print ('explained variance ratio (first two components): %s' 多 
str(pca.explained variance ratio_ )) 
print('sum of explained variance (first two components): %s' 多 


str(sum(pca.explained variance_ ratio_ ))) 
以 上 代码 会 输出 由 前 10 个 主 成 分 解释 的 方差 ， 按 解释 能 力 由 高 到 低 排序 。 


本 例 中 的 10 个 主 成 分 共同 解释 了 0.589 的 总 方差 。 这 结果 不 算 太 差 ， 毕 竞 我 们 将 64 个 变量 
减少 到 10 个 主 成 分 ， 但 也 的 的 确 确 反 映 出 了 主 成 分 分 析 带 来 的 潜在 损失 。 然 而 ， 关 键 问题 是 ， 
精简 后 的 变量 集 能 否 便于 后 续 的 分 析 或 分 类 , 也 就 是 说 , 降 维 向 量 保留 的 方差 信息 是 否 会 影响 分 
类 预测 效果 。 
用 pca 处 理 aigits 数据 集 , 并 将 输出 结果 保存 到 新 变量 aata_r 中 后 , 可 以 对 输出 进行 可 
视 化 。 为 此 ， 首 先 需 要 构建 colors 向 量 来 给 类 上 色 ， 然 后 便 可 以 绘制 散 点 图 : 


xX = np.arange(10) 
ys = [i+x+(i*x)**2 for i in range(10)] 












































plt.figure!() 
colors = cm.rainbow(np.linspace(0, 1, lenl(ys))) 
feof 全 Edrget name in .Zip(COLOrSs;,” [L273747D76 17 8; 97 LT0] 1abeLe): 
plt seatter(data rlLLlabels == I,, Ul; data rlliabels -== 13 二] ， 
Ese "Aalpha “es: O04,) 
plt.legend() 
plt.title('Scatterplot of Points plotted in first \n' 
'10 Principal Components') 
plt.show!() 


1.2 大 均值 聚 类 5 





得 到 的 散 点 图 如 图 1-2 所 示 。 





前 两 个 主 成 分 的 散 点 图 




















图 1-2 

这 幅 图 告诉 我 们 ,虽然 前 两 个 主 成 分 之 间 有 一 些 间隔 ,但 很 难 用 本 数据 集 来 高 度 精确 地 区 分 。 
然而 , 很 多 类 的 内 部 的 确 出 现 了 一 些 聚 合 现象 ,我们 可 以 通过 聚 类 分 析 获 取 一 些 有 用 信息 。 照 此 
方法 ， 我 们 可 以 利用 主 成 分 分 析 初 步 了 解数 据 集 的 结构 ， 然 后 再 进一步 分 析 。 


接 下 来 ,应 用 大 均值 聚 类 算法 来 继续 探索 聚 类 结果 。 


1.2 KK 均 值 聚 类 


前 面 已 经 介绍 过 , 无 监督 机 器 学 习 算 法 通常 用 于 从 复杂 的 大 型 数据 集中 提取 关键 的 结构 或 内 
容 信 息 。 这 些 算法 对 手动 输入 的 要 求 很 低 或 无 要 求 , 并 且 不 需要 训练 数据 ( 即 用 一 系列 带 标签 的 
解释 变量 和 响应 变量 来 训练 算法 ， 以 识别 所 需要 的 分 类 边界 )。 这 意味 着 ， 无 监督 算法 能 有 效 生 
成 新 数据 集 或 陌生 数据 集 的 结构 和 内 容 信 息 ， 以 便 分 析 师 在 短 时 间 内 深入 理解 数据 。 















































1.2.1 聚 类 入 门 

聚 类 可 能 是 最 典型 的 无 监督 学 习 技术 ， 原 因 如 下 。 

聚 类 算法 经 过 了 长 久 而 深 入 的 发 展 和 优化 ,包括 Python 在 内 的 大 部 分 数据 科学 语言 都 进行 
了 高 效 实现 。 

聚 类 算法 执行 高 效 , 算法 实现 的 平滑 复杂 度 在 多 项 式 级 别 。 这 使 得 同时 执行 多 个 聚 类 过 程 变 
得 没有 那么 复杂 ， 即 便 是 在 大 规模 数据 集 上 。 另 外 , 可 扩展 的 实现 方法 也 是 存在 的 , 它们 可 以 在 
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TB 级 规模 的 数据 集 上 并 行 运行 聚 类 算法 。 
聚 类 算法 通常 比较 容易 理解 ， 若 有 必要 ， 其 操作 过 程 也 比较 容易 解释 。 




















最 常用 的 聚 类 算法 是 均值 。 通 过 在 数据 空间 中 随机 确定 个 点 ， 该 算法 可 以 构建 个 簇 ， 





每 个 点 都 是 对 应 簇 的 均值 。 然 后 可 以 进行 如 下 循环 过 程 : 


口 根据 ( 簇 内 ) 最 小 平方 和 原则 ， 即 距离 最 近 原 则 ， 将 数据 点 分 配 至 不 同 簇 ; 
口 将 每 个 入 的 中 点 (质心 ) 作为 新 的 均值 ， 这 会 导致 均值 的 位 置 发 生变 化 。 











经 过 足够 多 的 迭代 后 ， 质 心 就 会 移 到 能 使 性 能 指标 ( 最 常用 的 是 “ 簇 内 最 小 平方 和 ”指标 ) 
最 小 化 的 位 置 ， 此 时 观测 点 不 会 再 随 迭 代 而 变化 ， 算 法 也 得 到 了 收敛 ， 从 而 得 出 聚 类 的 一 个 解 。 























1.2.2 ”开始 聚 类 分 析 
回顾 过 聚 类 算法 后 ， 接 下 来 运行 以 下 代码 并 观察 聚 类 的 效果 。 


from time import time 
import numpy as np 


import matplotlib.pyplot as plt 


np.random.seed() 
digits = load digits() 


data = scale(digits.data) 
n_samples, n_features = data.shape 
n_digits = len(np.unigque (digits.target)) 


labels = digits.target 


sample_size = 300 


吧 


print("n digits: %d, \t Dn_samples %d, \t Dn_features %d" %$ (n digits, n_ samples, 


n_features)) 


ELAt(79 
Blt time inertia homo compl Vv-meas 
ARI AMI silhouette') 


def bench k means (estimator, name, data): 

t0 = time() 

estimator.fit (data) 

print('% 9s %.2fs %i %.3f %.3f %$.3f %$.3f %.3f %.3f' 

$ (name, (time() - t0), estimator.inertia , 
metrics.homogeneity_score(labels, estimator.labels ),， 
metrics.completeness_score(labels, estimator.labels ), 
metrics.v_measure_score(labels, estimator.labels. ), 
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metrics.adjusted_ rangd_ score(labels, estimator.labels ), 
metrics.silhouette_score(data, estimator.labels_, 
metric='euclidean', 
sample_size=sample_size))) 


上 面 的 代码 和 之 前 的 主 成 分 分 析 代 码 的 关键 区 别 是 ， 这 里 的 代码 先 对 

digits 数据 集 应 用 了 标准 化 函数 ， 将 数据 集 的 值 限制 在 0~1。 必 须 在 必要 时 对 

数据 进行 标准 化 ， 既 可 以 是 对 数 标准 化 , 也 可 以 是 边界 限制 的 标准 化 ,以 防 不 同 

。  ， 量 级 的 变量 值 对 数据 集 造 成 不 成 比例 的 重大 影响 。 数 据 是 否 需要 进行 标准 化 (以 

及 何 种 标准 化 、 标 准 化 到 什么 范围 等 )， 很 大 程度 上 取决 于 数据 的 形态 和 性 质 。 

如 果 数 据 的 分 布 中 出 现 了 离 群 点 或 大 范围 的 波动 ， 那 么 应 用 对 数 标准 化 更 为 合 

适 。 通过 可 视 化 和 探索 性 分 析 还 是 统计 分 析 结 果 来 进行 手动 标准 化 , 标准 化 决策 

往往 与 数据 以 及 使 用 的 分 析 方 法 紧密 相关 。 如 果 想 要 进一步 了 解 标 准 化 的 决策 和 
考虑 ， 参 见 第 7 章 。 








scikit-learn 的 优点 是 默认 应 用 均值 + 算法 。K 均 值 + 算法 在 原始 均值 算法 的 基础 上 进行 
了 优化 ， 兼 顾 了 运行 时 间 效 率 和 聚 类 成 功率 ， 以 避 开 粳 糕 的 聚 类 结果 。 


上 均值 ++ 算 法 通过 运行 初始 化 过 程 来 寻找 逼近 簇 内 最 小 方差 的 簇 质 心 。 


你 可 能 已 经 从 前 面 的 代码 中 看 出 ， 我 们 用 了 一 系列 性 能 评估 指标 来 跟踪 上 均值 聚 类 的 效果 。 
仅 依赖 正确 率 或 其 他 算法 常用 的 类 似 性 能 指标 来 评估 聚 类 算法 是 不 现实 的 。 聚 类 算法 的 成 功 可 以 
定义 为 它 能 够 解释 数据 中 蕴含 的 分 组 方式 , 而 这 些 方 式 会 受到 包括 类 的 分 离 度 、 组 间 相 似 性 和 组 
间 差 异 在 内 的 各 种 因素 的 影响 。 


同 质 性 得 分 是 一 个 取 值 在 0~1 的 简单 指标 ， 用 于 度量 簇 内 的 数据 点 仅 归 属于 某 一 类 的 程度 。 
1 代表 所 有 簇 内 的 数据 点 都 属于 同一 类 。 该 指标 可 与 完整 性 得 分 一 起 使 用 ， 后 者 是 一 个 类 似 的 有 
界 指标 , 度量 给 定 类 的 成 员 被 分 配 到 同一 个 簇 的 程度 。 因 此 ,完整 性 得 分 和 同 质 性 得 分 都 为 1 的 
聚 类 就 是 完美 的 聚 类 。 


有 效 性 测度 (v 值 ) 是 同 质 性 得 分 和 完整 性 得 分 的 调和 平均 数 , 与 二 元 分 类 的 F 值 非常 类 似 ， 
其 本 质 上 是 用 一 个 0~1 范围 内 的 值 来 代表 聚 类 的 同 质 性 和 完整 性 。 


调整 兰 德 指数 ( Adjusted Rand Index，ARI ) 是 一 个 相似 性 指标 ， 用 于 表示 数据 点 集合 间 的 
一 致 性 。 对 聚 类 来 说 , 该 指标 度量 的 是 已 知 的 真实 数据 标签 和 基于 聚 类 算法 的 预测 标签 之 间 的 一 
致 性 。 兰 德 指数 在 0~1 有 界 范围 内 度量 标签 相似 性 ， 其 中 1 代表 完美 地 预测 了 标签 。 


上 文 提 及 的 所 有 性 能 指标 和 其 他 相似 指标 (如 赤 池 互信 息 准 则 ) 的 主要 问题 是 ,它们 都 要 基 
于 对 真实 状况 的 理解 ,也 就 是 说 , 被 分 析 的 部 分 数据 或 所 有 数据 需要 具有 标签 。 如 果 标 签 不 存在 
或 无 法 生成 ， 则 这 些 方法 无 效 。 在 实际 工作 中 ,这 是 一 个 极 大 的 劣势 ， 因 为 极 少 数据 集 是 事先 标 





































































































































































































注 的 ， 而 且 标注 数据 的 过 程 非常 耗 时 。 
无 须 标注 数据 就 能 度量 均值 聚 类 效果 的 一 种 指标 是 轮廓 系数 。 它 能 度量 模型 内 聚 类 的 明确 
程度 。 数 据 集 的 轮廓 系数 指 的 是 每 个 样本 系数 的 均值 ， 其 中 系数 的 计算 方法 如 下 所 示 : 


b-a 
max(a,b) 




















公式 中 每 项 的 定义 如 下 所 示 。 


口 a: 样本 和 艇 内 其 他 所 有 数据 点 的 距离 的 均值 。 
口 5: 样本 和 最 近邻 徐 内 所 有 数据 点 的 距离 的 均值 。 

该 式 取 值 范围 为 -1~1， 其 中 -1 代表 错误 聚 类 ，! 代表 密度 极 大 的 聚 类 ，0 代表 重 释 聚 类 。 上 
述 属性 与 我 们 对 一 个 良好 聚 类 方案 的 期 望 相 吻 合 。 

可 以 对 aigits 数据 集 应 用 前 面 提 及 的 所 有 性 能 测量 方法 。 因 此 , 可 以 在 aigits 数据 集 上 
初始 化 bench_k_means 国 数 来 完成 前 面 的 示例 : 

pench_k_means (KMeans (init='k-means++'，Dn_clusters=n_ digits, n init=10) ， 


name="k-means++", data=data) 
Peint (79 ST ) 


这 上段 代码 会 得 到 如 图 1-3 所 示 的 输出 ( 注意 ， 随 机 数 种 子 的 不 同 会 导致 结果 不 同 )。 

















n_digits: 19， n_samples 1797, n_features 64 


init time inertia homo compl v-meas ARI AMI silhouette 
k-means++ 8@.25s 69517 0.596 8.643 80.619 8.465 0.592 0.123 














图 1-3 
我 们 来 仔细 地 观察 一 下 这 个 结 


轮廓 评分 为 0.123, 相当 低 , 但 在 意料 之 中 , 毕竟 手写 数字 数据 本 来 就 有 很 多 噪声 ， 的 确 容 
易 出 现 重 于。 然而 ， 其 他 一 些 分 数 就 不 那么 突出 了 。0.619 的 v 值 是 比较 合理 的 , 但 同 质 性 得 分 
很 糟糕 ， 这 意味 着 复 质 心 不 够 完美 。 另 外 ，0.465 的 ARI 也 不 够 理想 。 





这 么 说 吧 ， 最 差 的 分 类 ( 即 随机 分 类 ) 最 高 能 达到 10% 的 分 类 精度 。 所 有 

， ”性 能 测量 指标 的 值 也 会 非常 低 。 虽然 肯 定 比 随机 分 类 更 准确 , 但 跟 最 优 的 分 类 算 

NW 法 相 比 ， 我 们 所 达到 的 效果 还 差 得 远 。 第 4 章 会 介绍 ， 当 卷 积 神经 网 络 应 用 于 手 

写 数字 数据 集 时 ， 分 类 错误 将 非常 少 。 传统 的 上 均值 聚 类 几乎 无 法 达到 这 样 的 精 
确 度 水 平 。 
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总 而 言 之 ， 有 理由 相信 ， 我 们 可 以 做 得 更 好 。 


因此 我 们 再 试 一 次 , 这 一 次 多 加 一 个 处 理 环节 。 先 应 用 前 面 用 过 的 主 成 分 分 析 技术 为 输入 数 
据 集 降 维 。 代 码 很 简单 ， 如 下 所 示 : 


pca = PCA(n_components=n_ qigits) .fit(data) 

bench k_means (KMeans (init=pca.components_, n_ clusters=10), 
name="PCA-based", 
data=data) 


这 段 代码 将 PCA 应 用 到 digits 数据 集 ， 所 获得 的 主 成 分 数 与 数据 集 的 标签 类 别 数 ( 本 例 
即 为 数字 的 种 类 数 ) 一 致 。 进 行 下 一 步 前 ,我们 应 该 先 检查 一 下 PCA 的 输出 结果 ， 因 为 主 成 分 
维度 过 低 可 能 代表 数据 集中 存在 共 线性 ， 或 者 需要 进一步 研究 。 


这 一 次 的 聚 类 效果 得 到 了 显著 提升 〈 见 图 1-4 )。 








n_digits: 16， n_samples 1797， n_features 64 


init time inertia homo compl  Vv-meas ARI silhouette 
PCA-based 8@.82s 71829 908.673 9.715 8@.693 8.567 9121 











图 14 
v 值 和 ARI 大 约 提高 了 0.08，v 值 甚至 达到 了 相当 优秀 的 0.693。 轮 廓 系数 并 没有 发 生 很 大 
改变 。 因 为 数据 集 非常 复杂 ， 而 且 簇 间 覆 盖 非 党 严重 ,所 以 现 有 结果 已 经 很 理想 了 ,尤其 是 只 添 
加 一 小 段 简单 代码 就 得 到 了 这 种 提升 ! 
对 aigits 数据 集 进行 聚 类 后 ， 就 可 以 看 到 一 些 有 意义 的 徐 。 图 1-5 同样 表明 ， 很 难 从 输入 
的 特征 向 量 中 挖掘 出 特征 。 








对 digits 数据 集 进行 上 均值 聚 类 (k= 10) 























前 面 的 示例 描述 了 大 均值 聚 类 的 应 用 ,并 用 相关 代码 展示 了 如 何 将 聚 类 分 析 结果 可 视 化 ,还 
介绍 了 一 些 适用 的 性 能 度量 指标 。 然 而 ， 对 真实 的 数据 集 应 用 大 均值 聚 类 时 ， 还 必须 考虑 其 他 问 
题 ， 后 文 会 对 此 进行 讨论 。 


另 一 个 关键 点 是 ， 如 何 选择 恰当 的 下 值 。 以 特定 磊 值 对 大 均值 聚 类 进行 初始 化 没有 坏处 ， 但 
很 多 情况 下 ， 我 们 一 开始 可 能 并 不 知道 最 终 要 确定 多 少 个 徐 ， 因 而 不 知道 将 上 定 为 多 少 合适 。 

可 以 用 不 同 的 大 值 重 新 运行 前 面 的 代码 ,并 观察 性 能 测量 方法 的 值 , 但 这 无 法 告诉 我 们 最 能 
捕 提 数据 特征 的 磊 值 是 多 少 。K 值 调整 存在 的 风险 是 : 随 着 的 增 大 ， 轮 廓 系数 或 未 解释 方差 可 
能 会 大 幅 减 小 , 但 我 们 无 法 得 到 有 意义 的 聚 类 。 极端 情况 是 ， 当 =o 时 (o 为 样本 数据 的 观测 数 )， 
即 每 个 数据 点 都 自 成 一 篮 时 ， 轮 廓 系数 会 很 小 , 但 聚 类 结果 毫 无 意义 。 同 时 ， 还 有 许多 大 值 过 高 
导致 过 度 拟 合 的 例子 。 


为 缓解 这 种 风险 ， 可 以 用 儿 种 辅助 方法 ( 如 肘 部 方法 ) 先 确定 的 几 个 可 能 取 值 。 肘 部 方法 
很 简单 ， 绘 制 解释 方差 随 值 变化 的 图 像 即 可 。 这 样 的 图 像 一 般 看 起 来 很 像 一 只 弯曲 的 手臂。 


对 主 成 分 分 析 降 维 过 的 数据 集 来 说 ， 代 码 如 下 所 示 : 


import numpy as np 








































































































Uy 


from sklearn.cluster import KMeans 

from sklearn.datasets import load_ digits 
from scipy.spatial.distance import cdist 
import matplotlib.pyplot as plt 

from sklearn.decomposition import PCA 
from sklearn.preprocessing import scale 


digits = load digits() 
data = scale(digits.data) 


n_samples, n_features = data.shape 
n_digits = len(np.unique (digits.target)) 
labels = digits.target 


K = range(1,20) 
explainedvariance= [] 
for k in kK: 
reduced data = PCA(n components=2) .fit_ transform(data) 
kmeans = KMeans (init = 'k-means++', n_clusters = k, n_init = k) 
kmeans.fit (reduced data) 
explainedvariance.append(sum(np.min(cdist!( 
reduced_ data, kmeans.cluster centers_, 'euclidean'), axis = 1))/data.shape[0]) 
plt.plot (K, meandistortions, 'bx-') 
plt.show!() 
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以 上 代码 应 用 了 肘 部 方法 ， 在 前 面 Pca 降 维 的 相关 示例 代码 的 基础 上 检验 了 解释 方差 (更 
具体 地 说 ， 检 验 了 簇 内 解释 方差 )。 输 出 结果 是 给 定 取 值 范围 内 的 所 有 值 及 其 对 应 的 未 解释 方 
差 的 度量 。 在 本 例 中 ， 因 为 使 用 的 是 digits 数据 集 (已 知 包 含 10 个 类 )， 所 以 的 取 值 范围 为 
1~20( 见 图 1-6 )。 




















图 1-6 


肘 部 方法 的 原理 是 ， 选 择 能 使 解释 方差 达到 最 大 、 大 达到 最 小 的 值 。 其 中 大 是 “ 肘 ” 的 拐弯 
处 的 值 。 肘 部 方法 的 技术 性 含义 是 ， 随 着 大 的 增 大 ， 解 释 方差 的 最 小 增长 会 与 过 度 拟 合 的 风险 相 
抵消 。 

但 肘 部 方法 图 的 效果 有 时 可 能 不 够 显著 ,因为 无 法 确保 “ 肘 部 ”永远 清晰 易 辨 。 本 例 中 的 曲 
线 比 较 平滑 ,根据 其 他 数据 集 绘制 的 肘 部 方法 图 可 能 更 易于 观察 。 值 得 注意 的 是 , 虽然 我 们 知道 
数据 集中 类 的 数目 是 10， 但 肘 部 方法 表明 ， 从 一 开始 就 出 现 了 k 值 增 大 所 带 来 的 收益 递减 现象 ， 
且 “ 肘 部 ”大 约 位 于 类 个 数 为 5 的 地 方 。 这 与 类 之 间 存 在 大 量 重 人 有关， 前 面 的 图 像 中 已 经 体现 
了 这 一 点 。 虽 然 总 共有 10 个 类 ， 但 要 清楚 识别 5 个 以 上 的 类 将 会 变 得 越 来 越 困 难 。 


还 需要 注意 的 是 ， 肘 部 方法 本 质 上 是 一 种 启发 式 探索 ， 而 非 什么 客观 原则 。 作 为 一 种 提升 聚 
类 效果 的 预 处 理 方法 ， 主 成 分 分 析 也 会 将 图 像 变 平滑 ， 从 而 得 到 更 为 平缓 、 循 序 渐进 的 曲线 。 


除了 应 用 肘 部 方法 ,还 可 以 观察 聚 类 本 身 〈 像 本 章 前 面 那 样 做 ), 用 主 成 分 分 析 对 数据 降 维 。 
对 数据 集 进行 可 视 化 、 对 数据 映射 聚 类 分 配 后 ， 往 往 很 容易 发 现 , 大 均值 聚 类 何 时 能 找到 局 部 最 
小 值 、 何 时 会 过 度 拟 合 。 图 1-7 展示 了 对 aigits 数据 集 应 用 前 文中 的 磊 均 值 聚 类 算法 时 出 现 的 
过 度 拟 合 现象 ， 此 时 规定 大 150。 在 本 例 中 ， 有 的 篮 只 包含 1 个 观测 值 ， 因 此 该 簇 完全 无 法 推广 
到 其 他 样本 。 
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对 qigits 数据 集 进行 上 均值 聚 类 (k= 150) 一 一 展示 过 度 拟 合 














绘制 肘 部 曲线 或 聚 类 分 配 比较 快速 易 行 ,而且 易 于 理解 。 但 前 文 提 过 ,这 些 技术 只 是 一 种 启 
发 式 探索 。 如 果 数 据 集中 的 类 数目 明确 ,那么 就 无 法 确保 这 种 启发 式 探索 能 够 带 来 可 归纳 的 结果 。 


这 种 方法 的 另 一 个 缺点 是 , 通过 绘图 检验 聚 类 效果 非常 手工 化 , 并 不 适合 生产 环境 或 自动 化 。 
在 这 些 情况 下 ,更 理想 的 方法 是 基于 代码 的 可 自动 化 方法 ， 比 如 应 用 广泛 的 v 重 交叉 验证 。 


交叉 验证 非常 容易 上 手 。 首 先 ， 将 数据 集 分 为 v 份 ， 其 中 一 份 用 作 测 试 集 ， 然 后 用 剩 下 的 
vy 一 1 份 数据 来 训练 模型 。 接 下 来 我 们 继续 用 aigits 数据 集 试 试 手 : 


import numpy as np 

from sklearn import cross_validation 
from sklearn.cluster import KMeans 

from sklearn.datasets import load digits 
from sklearn.preprocessing import scale 






































过 Witr 





digits = load digits() 
data = scale(digits.data) 


n_samples, n_features = data.shape 
n_digits = len(np.unique (digits.target)) 
labels = digits.target 


kmeans = KMeans (init='k-means++', n_clusters=n digits, n_ init=n digits) 
cV = cross_validation.ShuffleSplit(n samples, n_iter = 10, test_ size = 0.4, 
random_state = 0) 
scores = cross_validation.cross_val_score(kmeans, data, labels, cv = cv, 
scoring = 'adjusted rand_ score') 
print (scores) 
print (sum(scores)/cv.n_iter) 
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以 上 代码 执行 了 一 些 你 已 经 很 熟悉 的 数据 加 载 和 数据 准备 过 程 , 并 且 初 始 化 了 大 均值 聚 类 算 
法 。 然 后 它 定义 了 cv， 即 交叉 验证 的 参数 。 这 包含 了 循环 次 数 n_iter， 以 及 每 次 交叉 验证 的 测 
试 数据 占 比 。 在 本 例 中 ， 我 们 将 用 60% 的 数据 样本 进行 训练 ， 剩 下 的 40% 用 于 测试 。 

然后 应 用 均值 模型 ， 将 已 定义 好 的 cv 参数 代入 交叉 验证 评分 函数 ， 并 定义 输出 结果 为 
scores。 如 下 所 示 : 


[ 0.39276606 0.49571292 0.43933243 0.53573558 0.42459285 
0.55686854 0.4573401 0.49876358 0.50281585 0.4689295 ] 

















0.4772857426 

输出 项 依次 包含 磊 均值 ++ 聚 类 10 重 交 叉 验 证 中 每 次 验证 得 到 的 调整 兰 德 评分 。 该 评分 在 
0.4~0.55 范围 内 波动 ， 应 用 主 成 分 分 析 前 的 大 均值 ++ 聚 类 的 ARI 也 落 在 这 个 区 间 中 (为 0.465 )。 
以 上 代码 可 以 融入 我 们 的 分 析 ， 以 实现 在 底层 持续 变化 的 情况 下 自动 评估 聚 类 性 能 。 

本 章 前 面 提 过 , 测量 聚 类 效果 的 方法 应 与 所 掌握 的 信息 一 致 。 大 多 数 情况 下 , 我们 无 法 得 到 
数据 集 的 实际 标签 ， 因 此 不 得 不 使 用 诸如 轮廓 系数 的 方法 。 

















有 时 ， 即 使 使 用 交叉 验证 和 可 视 化 , 也 无 法 得 出 明确 的 结论 。 尤 其 是 在 处 理 
”陌生 数据 集 时 ， 有 时 会 碰 到 这 种 问题 ， 对 于 不 同 的 上 值 , 算法 可 能 会 错误 解析 某 
些 噪声 或 者 次 级 信号 ， 并 掩盖 需要 分 析 的 信号 。 
~ 与 本 书 中 讨论 的 其 他 所 有 算法 一 样 , 必须 先 了 解 需要 处 理 的 数据 集 , 否则 再 
严谨 、 技 术 再 正确 的 分 析 , 都 有 可 能 得 出 错误 的 结论 。 第 6 章 将 进一步 探讨 陌生 
数据 集 的 数据 检查 和 数据 准备 的 原则 和 技术 。 


1.3” 自 组 织 上 映射 


自 组 织 映射 是 一 种 基于 拓扑 表示 法 的 数据 降 维 技术 。 这 样 的 技术 有 很 多 , 其 中 主 成 分 分 析 便 
是 比较 有 名 的 一 种 。 人 然而， 作为 降 维 技术 和 可 视 化 形式 ， 自 组 织 映 射 自 有 其 独到 之 处 。 


1.3.1 ” 自 组 织 上 映射 入 门 


自 组 织 映射 算法 需要 反复 迭代 一 些 简 单 的 操作 。 在 目标 数据 集 很 小 时 ， 自 组 织 映射 与 x 均值 
聚 类 非常 类 似 〈 后 面 很 快 会 讲 到 ) 目标 数据 集 较 大 时 ， 自 组 织 映射 就 会 用 一 种 强大 的 方式 展现 
复杂 数据 集 的 拓扑 结构 。 

自 组 织 映射 是 由 许多 节点 构成 的 网 格 (一 般 是 矩形 或 六 边 形 )， 每 个 节点 都 包含 一 个 权重 向 
量 , 该 权重 向 量 的 维度 与 输入 数据 集 相同 。 节 点 可 以 随机 初始 化 , 但 与 数据 集 分 布 大 致 相似 的 初 
始 化 能 令 算法 训练 得 更 快 。 
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算法 会 随 观 测 值 的 输入 而 迭代 ， 和 迭 代 的 形式 如 下 所 示 。 


口 找 出 现 有 配置 下 的 激活 节点 ， 即 最 佳 匹 配 单元 ( best matching unit，BMU )。 通 过 度量 输 
入 向 量 与 所 有 权重 向 量 间 的 欧 几 里 得 距离 ， 可 以 决定 BMU"。 

口 根据 输入 向 量 调整 BMU (将 BMU 向 输入 向 量 移动 )。 

口 通常 以 较 小 量 调整 临近 节点 ”， 临 近 节 点 调整 的 幅度 由 邻 域 函 数 决 定 。( 邻 域 函 数 有 很 多 
种 ， 本 章 将 使 用 高 斯 邻 域 函 数 。) 


该 过 程 可 能 会 重复 多 次 ,并 运用 合适 的 取样 方法 ， 直 到 网 络 收敛 ( 当 新 输入 项 增加 时 ,损失 
无 法 进一步 降低 )。 

与 神经 网 络 的 节点 不 同 , 自 组织 上 映射 的 节点 通常 会 包含 一 个 长 度 与 输入 数据 集 维度 相同 的 权 
重 向 量 ， 也 就 是 说 ， 输 入 数据 集 的 拓扑 结构 可 以 用 一 个 低 维 映射 来 存储 并 进行 可 视 化 。 

自 组 织 映 射 类 实现 的 相关 代码 参见 本 书 仓库 中 的 som.py 脚本 。 目 前 ,我 们 先 在 熟悉 的 环境 
下 应 用 自 组 织 映射 算法 。 






























































1.3.2 部署 自 组 织 映 射 
前 面 提 到 过 ， 自 组 织 映 射 算法 是 迭代 的 ， 建 立 在 向 量 间 欧 几 里 得 距离 之 上 。 


该 映射 会 形成 一 个 清晰 易 读 的 2D 网 格 。 就 通用 的 高 尾 花 教学 数据 集 来 说 ， 自 组 织 映射 可 以 
非常 简洁 地 进行 映射 ( 见 图 1-8 )。 
































GD 与 输入 向 量 距离 最 近 的 权重 向 量 所 在 节点 即 最 佳 匹配 单元 。 一 一 译 者 注 
@) 即 优胜 邻 域内 的 节点 ， 其 中 优胜 邻 域 也 是 由 邻 域 函数 决定 的 。 一 一 译 者 注 
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图 中 的 类 得 到 了 有 效 划 分 ， 且 按 空间 进行 了 排序 。 此 例 中 的 背景 色 代 表 的 是 聚 类 密度 。 蓝 色 a 
类 和 绿色 类 出 现 了 细微 的 重 侠 ,此 处 自 组 织 映射 的 分 类 也 不 够 理想 。 在 芒 尾 花 数据 集中 ， 自 组 织 
映射 会 在 100 次 迭代 后 得 到 收敛 的 解决 方案 ， 而 迭代 增加 到 1000 次 时 ， 效 果 提 升 并 不 明显 。 对 
分 类 不 清 的 更 复杂 的 数据 集 来 说 ,该 过 程 可 能 会 持续 成 千 上 万 次 迷 代 。 
入 众 的 是 ,Python 目前 没有 类 似 scikit-learn 这 种 包含 自 组 织 映射 算法 的 包 。 因 此 ,我们 必须 
自己 动手 实现 。 
我 们 将 处 理 的 自 组 织 映射 代码 位 于 相应 的 GitHub 库 中 。 现 在 我 们 先 来 看 一 下 相关 脚本 ， 并 
大 致 理解 代码 的 运行 。 


import numpy as np 

from sklearn.datasets import load digits 

from som import Som 

from pylab import plot,axis,show,pcolor,colorbar,bone 











digits = load digits() 
data = digits.data 
labels = digits.target 


至 此 ， 我 们 就 加 载 好 了 aigits 数据 集 ， 并 根据 数据 标签 定义 了 变量 1abels。 这 样 做 可 以 
方便 我 们 观察 自 组 织 映 射 算法 是 如 何 通过 低 维 映射 进行 类 区 分 的 。 


som = Som(16,16,64,sigma=1.0,learning_ rate=0.5) 
som.random weights_init(data) 

print ("Initiating SOM.") 
som.train_random(data,10000) 

print("\n. SOM Processing Complete") 



































bone () 
pcolor (som.distance_ map ().T) 
colorbar () 


这 里 我 们 使 用 了 Som.py 文件 中 定义 的 som 类 , 该 类 包含 了 我 们 用 来 实现 自 组 织 映射 算法 的 
方法 。 我 们 将 提供 映射 的 维度 ( 经 过 一 系列 尝试 后 ， 本 例 将 16x16 作为 网 格 规模 ， 因 为 这 样 的 网 
格 规模 能 够 给 特征 映射 留 有 充足 的 延伸 空间 ,即使 仍 可 能 存在 一 些 簇 间 的 重合 ) 和 输入 数据 的 维 
度 (用 来 确定 自 组 织 映射 节点 的 权重 向 量 的 维度 ) 作为 函数 的 参数 , 同时 提供 sigma 值 和 学 习 率 。 


本 例 中 的 sigma 定义 了 邻 域 函数 的 覆盖 范围 。 如 前 文 所 述 ， 我们 使 用 的 是 高 斯 邻 域 函数 。 最 
恰当 的 sigma 值 与 网 格 规模 有 关 。 对 8x8 的 网 格 来 说 ，sigma 的 值 一 般 取 1.0， 而 本 例 16x16 的 网 
格 对 应 的 最 佳 sigma 值 为 1.3。sigma 取 值 不 恰当 是 很 容易 发 现 的 。 当 sigma 过 小 时 ， 数 据点 会 在 
网 格 的 中 心 聚集 ; 当 sigma 过 大 时 ， 网 格 中 心 就 会 出 现 若 干 较 大 空白 。 


不 言 自明 ,指标 学 习 率 指 的 是 自 组 织 映射 的 初始 学 习 率 。 随 着 映射 的 迭代 ， 学习 率 会 根据 以 
下 公式 进行 调整 : 










































































学 习 率 (1)= 学 习 率 /(1+0.5*7) 
其 中 1 为 迭代 指数 。 
先 用 随机 权重 来 初始 化 我 们 的 自 组 织 映射 。 


与 大 均值 聚 类 相同 , 自 组 织 映 射 的 随机 初始 化 比 基 于 近似 数据 分 布 的 初始 化 

要 慢 , 应 用 与 上 均值 + 算 OS fo Ys 射 的 运行 时 间 。 

KW 目前 来 看 , 我 们 的 自 组 织 映 射 已 经 在 digits 数据 集 上 运行 得 很 快 了 , 因此 没 必 
要 进行 这 样 的 优化 。 


接 下 来 ,给 每 个 类 定义 标签 并 分 配 颜色 ,以 便 在 自 组 织 映 射 图 像 中 区 分 它们 。 然 后 遍历 每 个 
数据 点 。 


每 次 迭代 时 ， 都 要 根据 自 组 织 映 射 算法 的 计算 结果 标 出 表明 类 的 BMU。 


自 组 织 映射 结束 迭代 时 ， 需 要 添加 U 和 矩阵 〈 一 种 表示 相对 观测 密度 的 颜色 矩阵 ) 作为 一 个 
单 色 图 层 : 
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markers = ['o', 'V', BS Rn DN 
OLORS. = |r To /Ve GO 00s 108 (LTO aBs0a (Ty L003 
vi ‘(0.060).] 
for cnt,xx in enumerate(data): 
WwW = som.winner (xx) 
plot (w[0]+.5,w[1]+.5,markers[labels[cnt]], 
markerfacecolor='None', markeredgecolor=colors[labels[cnt]], 
markersize=12, markeredgewidth=2) 
axis([0,som.weights.shape[0],0,som.weights.shape[1]]) 
show() 


以 上 代码 可 以 得 到 的 图 像 如 图 1-9 所 示 。 
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这 上段 代码 生成 了 一 幅 16x16 个 节点 的 自 组 织 映 射 图 像 。 由 图 可 知 , 映射 成 功 将 每 个 簇 分 离 成 
了 拓扑 上 截然 不 同 的 图 像 区 域 。 虽然 其 中 儿 个 类 ( 尤其 是 蓝 绿色 圆圈 代表 的 数字 5 和 绿色 星 号 代 
表 的 数字 9 ) 出 现在 了 自 组 织 映射 空间 的 许多 位 置 ， 但 大 多 数 情况 下 ， 每 个 类 都 单独 占据 一 块 区 
域 , 这 说 明 自 组 织 映射 还 是 非常 有 效 的 。U 和 矩阵 表明 ,数据 点 密度 较 高 的 区 域 往往 会 包含 多 个 类 
的 数据 ， 这 一 点 我 们 在 大 均值 聚 类 和 主 成 分 分 析 图 像 中 早已 见 过 ， 并 不 足 为 奇 。 


1.4 扩展 阅读 

Victor Powell 和 Lewis Lehe 提供 了 一 份 生 动 深刻 图文并茂 的 主 成 分 分 析 讲 解 ( http://setosa.io/ 
ev/principal-component-analysis/ ), 这 份 讲 解 很 适合 初次 接触 主 成 分 分 析 核 心 概 念 的 读者 或 还 不 太 
理解 该 概念 的 读者 。 

若 想 更 深入 地 了 解 主 成 分 分 析 及 其 背后 的 数学 理论 基础 , 并 触及 底层 的 矩阵 变换 原理 , 不 妨 
阅读 Google research 的 Jonathon Shlens 提供 的 更 清晰 详尽 的 解释 ( http://arxiv.org/abs/1404.1100 )。 


若 想 将 Jonathon 版 本 的 原理 说 明 转 化 为 Python 代码 以 进行 实践 , Sebastian Raschka 以 营 尾 花 
数据 集 所 做 的 示范 (http:/sebastianraschka.com/Articles/2015 pca in 3 _steps.html ) 是 一 个 不 错 的 
选择 。 


最 后 ， 如 果 想 了 解 sklearn 文档 中 与 主 成 分 分 析 类 相关 的 参数 细节 ， 则 可 以 参考 http://scikit- 


learn.org/stable/modules/generated/sklearn.decomposition.PCA.html。 


David Robinson 有 一 篇 有 趣 的 博文 “解释 方差 ”(http:/varianceexplained.org/rkmeans-free- 
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lunch/ ) 讲述 了 一 个 专业 而 生动 的 均值 素 类 的 实例 ， 其 中 详细 探索 了 导致 素 类 失败 的 条 件 ， 以 
及 这 种 情况 下 可 能 的 其 他 选择 。 


你 还 可 以 阅读 Rick Gove 对 肘 部 方法 的 详细 讨论 ( https://bl.ocks.org/pgove/0060f73b656618e9136b )。 


最 后 ,这 份 sklearn 文档 ( http://scikit-learn.org/stable/tutorial/statistical_ inference/unsupervised 
learning.html ) 从 另 一 个 视角 分 析 了 包含 大 均值 聚 类 在 内 的 无 监督 学 习 算 法 ， 非 常 值 得 一 读 。 

Kohonen 的 自 组 织 映 射 的 许多 现 有 阅读 材料 不 是 比较 过 时 ， 就 是 过 于 高 端 ， 又 或 过 于 正式 。 
你 也 可 以 替换 阅读 John Bullinaria 的 文 草 (http://www.cs.bham.ac.uk/~jxb/NN/l16.pdf )。 

如 果 想 更 深入 地 理解 背后 的 数学 原理 ,我 建议 你 直接 阅读 Tuevo Kohonen 的 文章 。 自 组 织 
射 2012 年 版 就 是 很 好 的 和 人 门 。 


关于 本 章 提 到 的 多 重 共 线性 概念 ，https://onlinecourses.science.psu.edu/stat501/lesson/12/12.1 
中 的 文章 给 出 了 清晰 的 解释 。 









































1.5 小结 


本 章 回顾 了 三 种 技术 , 它们 在 数据 预 处 理 和 数据 降 维 方面 都 有 广泛 的 应 用 。 在 应 用 这 些 技术 
的 过 程 中 ， 就 能 够 初步 了 解 陌生 数据 集 。 


我 们 先 回 顾 了 主 成 分 分 析 , 这 是 一 种 应 用 广泛 的 降 维 技术 ,能够 帮助 我 们 理解 并 可 视 化 高 维 
数据 集 。 接 着 ,我 们 使 用 大 均值 聚 类 对 数据 进行 了 聚 类 ， 通 过 性 能 指标 、 肘 部 方法 和 交叉 验证 来 
识别 改进 和 测量 均值 分 析 的 方法 。 当 用 同样 的 方法 将 均值 应 用 于 aigits 数据 集 时 ， 并 没有 
得 到 什么 特别 的 结果 。 通 过 主 成 分 分 析 可 视 化 ， 我 们 了 解 到 这 是 因为 数据 集 的 类 之 间 存 在 重 释 。 
于 是 ， 我 们 使 用 主 成 分 分 析 来 进行 数据 预 处理 ， 以 提升 后 续 的 聚 类 结果 ， 从 而 克服 了 这 一 弱点 。 


最 后 ， 我 们 开发 了 一 套 自 组 织 映射 算法 。 对 比 主 成 分 分 析 来 说 ， 这 套 算 法 可 以 对 digit 类 
做 出 更 清晰 的 分 割 。 

回顾 完 无 监督 学 习 技术 和 分 析 方 法 的 关键 基础 知识 后 , 接 下 来 我 们 将 探讨 更 加 强大 的 无 监督 
学 习 算 法 的 用 法 。 
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上 一 章 介绍 了 一 些 广泛 应 用 的 降 维 技术 , 这 些 技术 可 以 帮助 数据 科学 家 更 深入 地 了 解数 据 集 
的 性 质 。 


接 下 来 几 童 将 重点 探讨 深度 学 习 领 域 中 一 些 更 复杂 的 技术 。 本 章 的 目的 是 让 你 理解 受 限 玻 尔 
兹 曼 机 ( restricted Boltzmann machine，RBM ) 的 应 用 ， 并 掌握 多 个 受 限 玻 尔 兹 曼 机 链接 生成 的 
深度 学 习 架 构 一 一 深度 信念 网 络 ( deep belief network，DBN )。 经 过 训练 ， 深 度 信念 网 络 可 以 高 
效 地 解决 文本 、 图 像 和 声音 识别 中 的 复杂 问题 , 通常 被 行业 领先 企业 用 于 目标 识别 、 智 能 图 像 搜 
索 和 机 器 人 空间 识别 。 


我 们 首先 要 做 的 是 了 解 深度 信念 网 络 的 底层 算法 , 以 打下 坚实 的 知识 基础 。 不 同 于 聚 类 算法 
和 主 成 分 分 析 , 深度 信念 网 络 代 码 在 数据 科学 界 的 知名 度 并 不 高 , 因此 我 们 先 来 回顾 一 下 该 算法 ， 
以 确保 你 能 够 牢固 掌握 部 分 相关 知识 。 了 解 理 论 之 后 ,我们 会 在 此 基础 上 开始 学 习 代 码 , 巩固 理 
论 知识 ,并 将 技术 应 用 到 实际 中 。 对 这 些 技术 的 诊断 非常 重要 ,而 且 要 求 非常 严谨 ， 因 此 我 们 会 
强调 一 些 思 维 过 程 和 诊断 方法 ， 以 便 高 效 观 察 和 管理 这 些 技 术 的 实现 。 

学 完 本 章 , 你 将 了 解 受 限 玻 尔 兹 曼 机 和 深度 信念 网 络 算法 的 原理 , 学 会 如 何 使 用 它们 ,并且 
能 够 提升 你 所 得 到 的 结果 的 质量 。 本 章 内 容 总 结 如 下 所 示 : 
口 神经 网 络 入 门 


口 受 限 玻 尔 兹 曼 机 
口 深度 信念 网 络 

































































2.1 神经 网 络 入 门 


受 限 玻 尔 兹 曼 机 是 循环 神经 网 络 的 一 种 形式 。 为 了 理解 受 限 玻 尔 兹 曼 机 的 工作 原理 , 必须 先 
大 体 认识 神经 网 络 。 如 果 对 人 工 神经 网 络 ( 后 文 简称 神经 网 络 ) 算法 有 所 了 解 ， 那么 你 会 在 以 下 
描述 中 发 现 熟 悉 的 字眼 。 


许多 高 手 都 对 神经 网 络 进行 了 详细 的 理论 描述 , 因此 这 里 不 会 详细 探讨 。 本 章 将 先 介 绍 神经 














网 络 的 组 成 部 分 、 一 般 架 构 和 常见 的 学 习 过 程 。 


2.1.1 神经 网 络 的 组 成 

如 果 是 初次 学 习 神 经 网 络 , 那么 可 将 神经 网 络 理解 为 一 类 数学 模型 ， 这 类 数学 模型 可 根据 一 
系列 的 输入 特征 ， 通 过 训练 来 迭代 和 优化 定义 的 目标 函数 (或 分 布 )。 一 般 用 运算 符 的 形式 定义 
模型 的 性 能 测量 方法 (通常 为 成 本 函数 )， 并 用 于 表示 神经 网 络 应 用 的 具体 目标 ， 如 此 一 来 ， 神 
经 网 络 就 可 以 用 来 分 类 、 预 测 或 转换 数据 。 


神经 网 络 中 的 “神经 ”一 词 延续 了 传统 ， 即 借助 笨重 的 生物 学 词汇 进行 比喻 ， 以 激励 人 们 




































































研究 机 带 学 习 。 因 此 ， 人 工 神经 网 络 算法 最 初 借 鉴 了 ( 而且 现在 依然 经 常 这 么 做 ) 生物 神经 元 的 
结构 。 


一 个 神经 网 络 由 以 下 元 素 组 成 。 


口 一 个 学 习 过 程 : 神经 网 络 通过 调整 节点 的 权重 函数 的 参数 进行 学 习 。 这 要 求 将 性 能 测量 
方法 ( 如 前 文 所 说 ， 在 监督 学 习 的 背景 下 ， 性 能 测量 方法 往往 指 成 本 函数 ， 用 于 度量 神 
经 网 络 输出 的 精确 程度 ) 的 输出 项 反馈 到 网 络 的 学 习 函 数 中 。 然 后 学 习 函 数 会 调整 权重 ， 
以 实现 成 本 函数 最 小 化 (技术 上 来 说 ,方式 通常 为 计算 函数 的 偏 导 数 ， 这 是 梯度 下 降 法 
中 使 用 的 一 个 术语 )。 

口 一 组 神经 元 或 权重 : 每 个 神经 元 或 权重 都 包含 一 个 权重 函数 ( 即 激活 函数 )， 用 于 处 理 输 
和 数据 。 神经 网 络 不 同 , 激活 函数 也 会 有 很 大 差异 ( 双 曲 正切 函数 就 是 一 个 著名 的 例子 )。 
权重 必须 具有 适应 性 ， 即 能 够 随 学 习 过 程 的 更 新 而 调整 。 为 了 进行 非 参 数 建 模 ( 即 无 须 
定义 概率 分 布 的 细节 就 能 有 效 建 模 )， 必 须 同时 使 用 可 见 单元 和 隐藏 单元 ， 其 中 隐藏 单元 
无 法 被 观察 到 。 

口 连接 功能 : 用 于 控制 节点 之 间 的 数据 传输 。 无 论 是 否 受 限 ， 节 点 都 可 以 自由 地 将 数据 传 
输 给 另 一 节点 ， 但 在 输入 数据 必须 向 指定 方向 传输 的 层 中 ， 节 点 结构 会 更 复杂 。 互 连 模 
式 是 多 样 的 ， 这 丰富 了 其 生成 的 网 络 的 功能 性 和 可 能 性 。 


这 些 元 素 允 许 我 们 构造 各 种 各 样 的 神经 网 络 , 从 熟悉 的 有 向 非 循环 图 ( 其 中 最 有 名 的 可 能 是 
多 层 感知 机 ) 到 其 他 创新 的 种 类 。 上 一 章 中 应 用 的 自 组 织 映射 就 是 一 种 神经 网 络 ， 其 学 习 过 程 非 
常 独特 。 本章 即将 深入 探讨 的 受 限 玻 尔 兹 曼 机 算法 则 是 男 一 种 神经 网 络 算法 , 同样 也 拥有 许多 独 
有 人 性质。 








































































































2.1.2 ”网 络 拓扑 结构 


经 元 在 神经 网 络 中 的 连接 方式 有 很 多 种 ， 而 结构 将 在 很 大 程度 上 决定 神经 网 络 的 学 习 能 
力 。 无 监督 学 习 中 的 常见 拓扑 结构 与 监督 学 习 中 的 存在 区 别 ,你 现在 已 经 熟悉 的 一 种 常见 无 监督 
学 习 拓扑 结构 就 是 上 一 章 探 讨 过 的 自 组 织 映射 。 
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如 我 们 所 见 , 自 组 织 映射 能 直接 将 单个 输入 项 映射 到 每 个 节点 包含 的 权重 向 量 , 然后 对 节点 
重新 排序 ， 直 到 收敛 到 数据 集 的 一 个 合理 映射 。 受 到 具体 训练 细节 的 影响 ， 自 组 织 映射 的 实际 结 
构 会 有 许多 种 形式 , 一 般 取 决 于 具体 的 训练 数据 实例 和 神经 网 络 结构 的 设计 , 但 是 矩形 和 六 边 形 
的 网 格 结构 如 今 愈 发 普遍 。 


监督 学 习 中 一 种 非常 常见 的 拓扑 结构 是 三 层 前 馈 神 经 网 络 , 其 中 最 典型 的 一 种 就 是 多 层 感知 
机 。 在 该 网 络 拓扑 模型 中 ， 网 络 中 的 神经 元 被 分 成 几 层 ， 其 中 每 一 层 都 向 “上 一 层 ” 传 递 信 息 。 
第 一 层 将 模型 输入 提供 给 隐藏 层 。 隐 藏 层 用 权重 激活 〈 利 用 合理 的 激活 函数 ， 如 sigmoid 函数 或 
高 斯 函数 ， 多 层 感知 机 可 以 用 作 全 局 函数 通 近 器 ) 表示 数据 ， 然 后 将 激活 值 传输 到 输出 层 。 最 后 
输出 层 会 输出 神经 网 络 结果 。 这 样 的 拓扑 结构 如 图 2-1 所 示 。 
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图 2-1 
其 他 的 网 络 拓扑 结构 则 提供 不 同 功能 。 比 如 , 玻 尔 兹 曼 机 的 拓扑 结构 就 与 上 文 提 到 的 拓扑 结 
构 不 同 。 和 普通 的 三 层 网 络 一 样 ， 它 也 包含 隐藏 神经 元 和 可 见 神经 元 ,但 这 些 神经 元 两 两 相连 ， 
构成 一 幅 有 向 循环 图 ( 见 图 2-2 )。 











图 2-2 


这 样 的 拓扑 结构 使 玻 尔 效 曼 机 具有 随机 性 〈 遵从 概率 而 非 确定 的 )， 而 且 面 对 复杂 问题 时 ， 
其 发 展 方式 有 许多 种 。 玻 尔 兹 曼 机 也 具有 生成 性 ， 即 可 以 充分 利用 所 有 输入 变量 进行 ( 概率 分 布 
上 的 ) 建 模 ， 而 不 是 用 观测 变量 针对 目标 变量 进行 特定 建 模 。 


哪 种 网 络 拓扑 结构 更 合适 , 很 大 程度 上 取决 于 要 人 处理 的 问题 和 所 需要 的 输出 结果 。 每 种 拓扑 
结构 都 有 其 使 用 的 场景 。 而 且 本 章 所 提 及 的 每 种 拓扑 结构 都 带 有 一 种 学 习 过 程 , 这 种 学 习 过 程 能 
使 网 络 迭 代 地 收敛 到 ( 理想 情况 下 最 优 的 ) 解决 方案 。 


学 习 过 程 多 种 多 样 , 其 中 的 具体 过 程 和 网 络 拓扑 结构 之 间 多 少 存在 共通 之 处 。 学 习 过 程 的 目 
的 是 迭代 地 调整 神经 网 络 的 权重 ,逐渐 精确 地 表示 输入 数据 。 


就 像 网 络 拓扑 结构 ,学 习 过 程 的 种 类 也 有 很 多 。 有 的 你 已 经 非常 熟悉 ,而 且 有 许多 优质 学 习 
资源 可 供 选 择 ( 本章 末尾 提供 了 许多 精品 案例 )。 本 章 将 主要 介绍 学 习 过 程 的 共同 特征 ， 并 详细 
探讨 一 个 具体 案例 。 


我 们 已 经 说 过 , 神经 网 络 中 学 习 的 目的 是 迭代 地 改进 整个 模型 的 权重 分 布 , 以 使 其 更 精确 地 
逼近 输入 数据 背后 的 函数 。 该 过 程 需要 性 能 评价 方法 ,可 以 是 监督 分 类 《〈 即 用 多 层 感知 机 网 络 的 
反 向 传播 学 习 算法 ) 常用 的 分 类 误差 测量 。 在 随机 网 络 中 , 也 可 以 是 将 某 一 项 概率 最 大 化 ( 比如 
基于 能 量 的 网 络 中 的 能 量 )。 


无 论 是 哪 一 种 神经 网 络 , 只 要 有 提升 概率 的 指标 , 网 络 就 能 应 用 优化 方法 来 有 效 改 善 该 指标 
的 度量 。 很 多 情况 下， 网 络 优化 都 是 通过 梯度 下 降 法 实现 的 。 对 于 该 方法 来 说 ,训练 中 每 次 迭代 
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时 的 评价 指标 值 就 好 比 梯度 的 斜率 。 因 此 ,评价 指标 的 最 小 化 ,就 相当 于 将 梯度 下 降 到 在 对 应 权 
重 下 误差 测度 最 小 的 点 。 

下 一 次 迭代 过 程 中 网 络 更 新 的 步 长 〈( 即 算 法 的 学 习 率 ) 既 可 以 随 评价 指标 变化 而 变化 , 也 可 
以 固化 在 代码 中 。 

权重 更 新 ( 网 络 据 此 调整 ) 可 能 来 源 于 误差 表面 本 身 ; 如 果 确 实 如 此 , 那么 网 络 往往 能 够 计 
算 梯度 ， 并 用 于 调整 网 络 的 激活 权重 函数 的 参数 值 ， 从 而 继续 改善 评价 指标 。 

回顾 了 网 络 拓扑 结构 和 学 习 方 法 的 一 般 概念 后 , 接 下 来 开始 探讨 一 种 具体 的 神经 网 络 一 一 受 
限 玻 尔 兹 曼 机 。 你 将 学 习 到 ， 受 限 玻 尔 兹 曼 机 是 强大 的 深度 学 习 算 法 中 非常 重要 的 一 员 。 











2.2” 受 限 玻 尔 雍 曼 机 














受 限 玻 尔 效 曼 机 是 本 章 主 题 
玻 尔 兹 曼 机 背后 的 原理 ， 包 括 其 总 体 结构 和 学 习 过 程 。 


然后 ,我 们 将 直接 研究 受 限 玻 尔 效 曼 机 类 的 代码 , 将 理论 元 素 和 代码 中 的 函数 联系 起 来 。 最 
后 ,我们 将 稍稍 涉猎 受 限 玻 尔 兹 曼 机 的 应 用 ， 以 及 与 实现 受 限 玻 尔 兹 曼 机 相关 的 实际 因素 。 























2.2.1 受 限 玻 尔 兹 曼 机 简介 


玻 尔 兹 曼 机 是 一 种 特殊 的 随机 循环 神经 网 络 。 它 是 一 种 基于 能 量 的 模型 ,也 就 是 能 够 用 能 量 
函数 将 能 量 值 和 网 络 结构 联系 起 来 的 模型 。 


前 面 简要 探讨 了 玻 尔 效 曼 机 的 结构 。 如 前 文 所 说 ,， 玻 尔 效 曼 机 是 一 种 有 向 循环 图 ,其 中 每 个 
节点 都 与 其 他 所 有 节点 相连 。 该 性 质 使 得 玻 尔 效 曼 机 能 够 递归 建 模 , 因此 我 们 可 以 观测 到 模型 输 
出 是 如 何 随 着 时 间 推 移 变 化 的 。 

玻 尔 兹 曼 机 中 的 学 习 循 环 包括 最 大 化 训练 数据 集 卫 的 概率 。 前文 提 过 , 此 处 所 使 用 的 模型 性 
能 评价 指标 是 能 量 ， 定 义 为 给 定 模型 参数 向 量 9 时 数据 集 的 概率 的 负 对 数 。 计 算 该 指标 并 用 
于 更 新 网 络 权重 ， 以 便 最 小 化 网 络 中 的 自由 能 。 

玻 尔 兹 曼 机 尤其 适用 于 图 像 数据 处 理 ， 其 中 包括 照片 、 面 部 特征 和 手写 分 类 。 

但 玻 尔 效 曼 机 并 不 适合 处 理 难 度 更 大 的 机 顺 学 习 问 题 , 这 是 因为 问题 难度 增 大 往往 伴随 着 对 
计算 力 需 求 的 增加 。 随 着 节点 数 增加 ,计算 时 间 会 旦 指数 级 增长 ,最 终 将 无 法 计算 出 网 络 中 的 自 
由 能 。 
























































如 果 对 背后 的 形式 推理 感 兴趣 ,不 妨 了 解 一 下 : 由 于 数据 点 的 概率 密度 函 
数 p(x; 9) 对 所 有 YY 的 积分 结果 必须 为 1， 因此 需要 一 个 配 分 函数 Z 作 为 标准 化 常 
量 。(Z 是 常量 ， 一 个 非 负 函 数 乘 以 Z， 可 以 使 其 在 定义 域内 的 积分 为 1; 本 例 中 
也 就 是 对 所 有 的 x 积分 。) 

概率 模型 函数 是 一 系列 正 态 分 布 的 函数 。 要 想 知道 模型 的 能 量 ， 必 须 区 分 模 
型 的 每 个 参数 ; 然而 ， 由 于 配 分 函数 的 存在 ， 这 一 点 变 得 非常 困难 。 每 个 模型 参 
数 都 会 生成 一 些 依赖 于 其 他 模型 参数 的 方程 , 到 最 后 , 我 们 将 不 得 不 在 ( 可 能 的 ) 
高 成 本 计算 的 基础 上 计算 出 能 量 , 而 这 样 的 计算 成 本 会 随 网 络 规模 的 增 大 而 变 得 
愈 发 高 昂 。 


为 了 克服 玻 尔 兹 曼 机 的 这 个 缺点 ， 必 须 调整 网 络 拓 扑 结 构 和 训练 过 程 。 
1. 拓扑 结构 


通过 限制 节点 间 的 连接 这 一 拓扑 结构 变换 方式 可 以 显著 提高 计算 效率 。 首先 , 必须 防止 同一 
层 的 节点 相互 连接 。 此 外 ,所 有 跨 层 连 接 ( 即 不 相 邻 层 之 间 的 直接 连接 ) 也 是 禁止 的 。 这 种 结构 


的 玻 尔 兹 曼 机 就 称 为 受 限 玻 尔 兹 曼 机 ， 如 图 2-3 所 示 。 

















这 种 拓扑 结构 的 一 个 优势 是 , 隐藏 层 和 可 见 层 是 互相 条 件 独立 的 , 这 样 我 们 就 能 根据 一 个 层 


图 2-3 





的 激活 值 对 另 一 层 进行 采样 "。 


Q 这 样 做 是 为 了 得 到 条 件 概率 的 估计 。 一 一 译 者 注 





2. 训练 过 程 


前 文 提 到 过 ， 随 着 玻 尔 兹 曼 机 的 规模 增 大 ， 其 训练 时 间 也 会 大 幅 增 长 ， 这 使 得 我 们 最 终 无 法 
计算 训练 阶段 所 用 的 能 量 函 数 。 


受 限 玻 尔 兹 曼 机 使 用 了 一 种 本 质 上 不 同 的 学 习 算 法 一 一 永久 对 比 散 度 ( permanent contrastive 
divergence，PCD ) 算法 ， 该 算法 能 生成 极 大 似 然 概 率 的 近似 值 。 永 久 对 比 散 度 不 会 求 出 能 量 函 
数 本 身 的 值 ， 但 会 估算 能 量 函 数 的 梯度 值 。 因 此 ,我 们 可 以 沿 着 最 陡峭 的 梯度 不 断 微调 模型 ， 并 
最 终 到 达 局 部 最 优 解 。 

永久 对 比 散 度 算法 由 两 阶段 组 成 , 分 别称 为 正 相 位 阶段 和 负 相位 阶段 ,每 一 阶段 都 对 模型 能 
量 有 相应 的 影响 。 正 相位 阶段 会 提升 训练 数据 集 了 的 概率 ， 从 而 降低 模型 的 能 量 。 然后, 负 相 位 
阶段 会 用 模型 的 一 种 采样 方法 来 估计 负 相 位 梯度 。 负 相位 阶段 的 整体 效果 是 降低 模型 抽取 的 样本 
概率 。 


负 相位 阶段 和 整个 更 新 过 程 的 采样 所 采用 的 方法 叫 Gibbs 采样 。 















































Gibbs 采样 是 马尔 可 夫 链 蒙特 卡 洛 ( Markov Chain Monte Carlo，MCMC ) 系 
列 算法 的 变种 ,从 近似 的 多 元 概率 分 布 中 采样 。 也 就 是 说 , 该 方法 在 构建 概率 模 
型 的 过 程 中 没有 使 用 加 和 计算 ( 比如 括 硬 币 一 定 次 数 时 所 做 的 计算 ,此 时 我 们 会 
” 将 搓 出 正面 的 次 数 相 加 ， 再 除 以 总 次 数 ), 而 是 粗略 估计 积分 值 。 由 于 篇 幅 所 限 ， 
SS 本 书 无 法 详 述 通过 粗略 估计 积分 值 来 构建 概率 模型 的 问题 , 但 2.4 节 将 提供 一 些 
优质 的 参考 文献 。 目 前 需要 谨 记 的 关键 ( 别 除 许多 重要 细节 ) 是 ,每 个 数据 点 不 
要 只 计算 一 次 , 而 要 基于 数据 的 分 布 ( 通常 是 非 均 匀 的 分 布 ) 进行 计算 。 基 于 模 
型 中 的 其 他 所 有 参数 值 ，Gibbs 采样 对 模型 每 个 参数 的 概率 采样 ， 获 得 新 参数 值 
后 ， 会 立即 将 该 值 用 于 其 他 参数 的 采样 计算 。 
你 可 能 会 问 : 为 什么 必须 使 用 永久 对 比 散 度 ? 为 什么 不 用 更 熟悉 的 方法 ,比如 包含 线性 搜索 
的 梯度 下 降 法 ?简单 来 说 , 我 们 没 法 轻易 计算 出 网 络 中 的 自由 能 ,因为 该 计算 包含 所 有 网 络 节点 
的 集合 。 遇 到 玻 尔 效 曼 机 的 巨大 缺陷 时 , 我 们 发 现 了 这 一 局 限 一 一 节点 的 增多 会 带 来 计算 时 间 的 
指数 级 增长 ， 导 致 最 后 无 法 计算 出 函数 值 ， 也 就 无 法 将 函数 最 小 化 ! 
永久 对 比 散 度 能 估算 能 量 函 数 的 梯度 ， 通 近 网 络 的 自由 能 ， 从 而 很 快 将 估算 结果 用 于 实践 ， 
且 该 估算 一 般 比 较 精 确 。( 有 关 性 能 比较 ， 参见 2.4 节 。 ) 
如 前 文 所 述 ， 受 限 玻 尔 效 曼 机 的 概率 模型 函数 是 模型 参数 的 联合 分 布 ， 这 使 得 Gibbs 采样 更 
加 精确 。 


初始 化 后 的 受 限 玻 尔 效 曼 机 的 训练 循环 包含 以 下 几 步 : 
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(1) 得 到 此 次 迭代 的 隐藏 层 的 激活 权重 值 ; 

(2) 将 上 次 迭代 的 Gibbs 链 的 状态 作为 输入 项 ， 执 行 永久 对 比 散 度 正 相位 阶段 ; 
(3) 利用 已 有 的 Gibbs 链 的 状态 执行 永久 对 比 散 度 负 相 位 阶段 ， 得 到 自由 能 值 ; 
(4) 用 计算 出 的 能 量 值 更 新 隐藏 层 的 激活 权重 。 


该 算法 让 受 限 玻 尔 兹 曼 机 能 够 在 自由 能 值 降 低 的 方向 上 逐步 迭代 , 直到 训练 集 的 概率 积分 为 
1， 自 由 能 等 于 0， 此 时 受 限 玻 尔 效 曼 机 收敛 ， 训 练 结束 。 

学 习 过 受 限 玻 尔 兹 曼 机 的 拓扑 结构 和 训练 过 程 后 , 接 下 来 我 们 用 算法 对 一 个 大 规模 的 真实 数 
据 集 分 类 。 














2.2.2” 受 限 玻 尔 兹 曼 机 的 应 用 


现在 我 们 已 经 对 受 限 玻 尔 兹 曼 机 算法 的 运行 机 制 有 所 了 解 , 下 面 来 浏览 一 下 构造 受 限 玻 尔 效 
曼 机 的 代码 。 我 们 将 用 一 个 RBM 类 为 MNIST 手写 数字 数据 集 分 类 。 我 们 要 研究 的 代码 将 执行 以 
下 几 步 。 


口 设 定 受 限 玻 尔 兹 曼 机 的 初始 参数 ， 包 插 层 的 尺寸 、 可 共享 的 偏差 向 量 以 及 可 与 外 部 网 络 
结构 连接 的 可 共享 的 权重 矩阵 〈 以便 应 用 深度 信念 网 络 )。 

口 定义 用 于 隐藏 层 和 可 见 层 之 间 信 息 交 换 和 推理 的 函数 。 

口 定义 用 于 更 新 网 络 节点 的 参数 的 函数 。 

口 定义 学 习 过 程 中 用 于 高 效 抽样 的 函数 ， 用 永久 对 比 散 度 -k 加 速 采样 (使 得 计算 能 在 合理 
的 时 间 内 完成 )。 

口 定义 用 于 计算 模型 自由 能 的 函数 ( 用 于 计算 永久 对 比 散 度 -k 更 新 的 梯度 )。 

口 定义 伪 似 然 度 (Pseudo-Likelihood，PL )， 用 来 代替 实际 对 数 似 然 值 并 指导 超 参 数 的 选取 。 


先 从 考查 RBM 类 开始 : 


class RBM(obJject) : 
def _ init_ _( 

self, 
input=None, 
n_visible=784, 
n_hidden=500, 
w=None, 
hbias=None, 
vbias=None, 
numpy_rng=None, 
theano_rng=None 












































)3 


首先 需要 构造 的 是 RBM 类 ， 这 个 类 包含 了 很 多 模型 参数 的 定义 ， 比 如 可 见 节点 数 和 隐藏 节 
点 数 Cn_visible 和 n_higden )， 以 及 用 于 调整 受 限 玻 尔 效 曼 机 的 推理 功能 和 对 比 散 度 更 新 的 
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参数 w 可 用 作 指 向 共享 权重 矩阵 的 指针 。 本 章 后 面 会 介绍 到 , 该 参数 与 深度 信念 网 络 关 系 密 
切 ; 在 这 样 的 结构 下 ， 需 要 在 网 络 的 不 同 部 分 之 间 共 享 权重 矩阵 。 


参数 hbias 和 vbias 的 用 法 相似 , 分 别 用 作 隐 藏 单元 和 可 见 单元 共享 的 偏差 向 量 的 可 选 参 
考 。 两 者 同样 用 于 深度 信念 网 络 。 

参数 input 则 确保 受 限 玻 尔 效 曼 机 与 图 中 其 他 元 素 保持 由 上 至 下 的 连接 性 ， 这 使 得 连接 受 
限 玻 尔 效 曼 机 成 为 可 能 。 

构建 好 RBM 类 后 ， 接 下 来 需要 给 这 些 参数 赋值 : 


self.n visible = n visible 
self.n hidden = n_hidden 























if numpy_rng is None: 
numpy_rng = numpy .random.RandomState(1234) 


if theano_rng is None: 
theano_rng = RandomStreams (numpy_rng.randint (2 xx 30)) 


以 上 代码 非常 浅显 易 懂 。 我 们 设置 了 受 限 玻 尔 兹 曼 机 的 可 见 节点 和 隐藏 节点 , 以 及 两 个 随机 
数 生成 器 。 参数 theano_rng 将 在 受 限 玻 尔 效 曼 机 的 隐藏 单元 中 采样 ， 


If W is None: 
initial_W = numpy.asarray( 
numpy_rng.uniform( 
low=-4 * numpy.sgqrt (6. / (mn hidden + nn visible)), 
high=4 * numpy.sqrt(6. / (mn hidden + n visible)), 
size=(n_visible, n_hidden) 
) ， 
dtype=theano.config.floatx 
) 


这 段 代码 改变 了 w 的 数据 类 型 ,使 其 能 在 GPU 上 运行 。 接 下 来 ,我们 用 theano. shared 
设置 了 共享 变量 ,这 使 得 变量 存储 下 来 并 可 以 在 相关 函数 之 间 共 享 。 在 这 个 例子 中 , 我 们 创建 的 
共享 变量 是 权重 向 量 (WwW) 以 及 隐藏 单元 与 可 见 单元 的 偏差 变量 (分别 为 npias 和 vpias )。 用 


多 个 成 分 构建 深度 网 络 时 ， 以 下 代码 允许 我 们 在 网 络 的 不 同 部 分 之 间 共 享 这 些 成 分 : 


W = theano.shared(value=initial_W, name='W', borrow=True) 





























if hbias is None: 
hbias = theano.shared!( 
value=numpy .Zeros ( 
n_hidden, 
dtype=theano.config.floatx 
jj 


name='hbias', 
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borrow=True 


) 


if vbias is None: 
vbias = theano.shared ( 
value=numpy .Zeros ( 
n_visible, 
dtype=theano.config.floatx 
es 
name='vbias', 
borrow=True 


) 


此 时 ,我 们 已 经 可 以 对 输入 层 进行 初始 化 ， 如 下 所 示 : 


self.input = input 
if not LNBut:s 
self.input = T.matrix('input') 


Self.NW = W 
self.hbias = hbias 
self.vbias = vbias 


self.theano_rng = theano_rng 
self.params = [self.W, self.hbias, self.vbias] 


初始 化 过 input 层 后 ， 下 一 步 便 是 构造 一 幅 前 文 提 过 的 符号 图 。 为 此 ， 我 们 需要 构造 一 些 


函数 ， 以 控制 层 间 的 传播 和 网 络 的 激活 计算 操作 : 


def propup(self, vis): 
pre_sigmoiqd activation = T.dot(vis, self.W) + self.hbias 
return [pre_sigmoiqd activation, T.nnet.sigmoid(pre_sigmoid activation)] 


def propdown (self, hid): 
pre_sigmoiqd activation = T.dot (hid, self.W.T) + self.vbias 
return [pre_sigmoiqd activation, T.nnet.sigmoid(pre_sigmoid activation) 


以 上 两 个 函数 将 一 层 单元 的 激活 值 传 到 男 一 层 。 第 一 个 函数 将 可 见 单元 的 激活 值 向 上 传 到 隐 
茂 层 ， 因 此 隐藏 层 能 够 基于 采样 后 的 可 见 单元 计算 激活 值 。 第 二 个 函数 则 正 相 反 ,， 它 将 隐藏 层 的 








激活 值 向 下 传 到 可 见 单元 。 





你 可 能 会 问 : 为 什么 要 构造 两 个 消 数 propup 和 propdown? 前 面 提 过 ， 永 久 对 比 散 度 只 要 


求 我 们 从 隐藏 单元 采样 。 那 么 propup 如 何 取 值 呢 ? 





简 而 言 之 , 需要 从 受 限 玻 尔 兹 曼 机 采样 以 回顾 其 进展 时 ,可 见 层 的 采样 尤其 有 用 。 在 大 部 分 





用 受 限 玻 尔 效 曼 机 处 理 可 视 化 数据 的 应 用 中 ， 需 要 定期 对 选取 采样 后 的 可 见 层 进行 输出 并 | 
图 ， 如 图 2-4 所 示 。 
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图 2-4 


由 图 2-4 可 知 ,在 迭代 的 过 程 中 , 我 们 的 网 络 逐渐 改变 了 标签 ; 在 第 一 个 示例 中 ,7 变 成 了 9， 
而 在 另 一 例 中 ，9 变 成 了 6， 最 后 网 络 的 元 素 逐 渐变 成 了 3。 
我 们 曾 探讨 过 ， 对 受 限 玻 尔 兹 曼 机 的 运算 检查 次 数 越 多 越 好 ， 以 确保 能 得 到 有 意义 的 结果 。 
对 网 络 输 出 项 进行 采样 就 是 提升 可 见 性 的 一 种 方法 。 
学 习 过 可 见 层 激活 的 知识 后 , 就 可 以 在 已 知 隐藏 节点 的 激活 的 情况 下 , 对 隐藏 层 的 单元 激活 
进行 采样 : 



































def sample h given vl(self, v0O_sample): 


pre_sigmoiqd hi1i, hl mean = self.propup (v0_sample) 
hil_sample = self.theano_rng.binomial (size=h1_ mean.shape, 
n=1, p=h1l_ mean, dtype=theano.config.floatx) 





return [pre_sigmoid hi, hi _ mean, hil_samplel 


同样 ， 已 知 隐藏 单 元 激活 的 情况 下 ， 也 能 对 可 见 层 采 样 : 


def sample v_given hl(self, h0_sample): 
pre_sigmoiqd v1, v1 mean = self.propdown (h0_sample) 
V1_sample = self.theano_rng.binomial (size=v1_mean.shape, 
n=1, p=Vv1_mean, 
dtype=theano.config.floatx) 














return [pre_sigmoid v1, v1 mean, v1_samplel 


如 本 章 前 文 所 述 ， 现 在 我 们 已 经 完成 了 网 络 内 部 的 连接 ,以 及 执行 Gibbs 采样 需要 的 更 新 循 
环 。 接 下 来 该 定义 采样 步 又 了 ! 














def gibbs_hvh(self, h0_sample): 


pre_sigmoid_ vl, v1_ mean, v1_sample self.sample _v_given h(h0_sample) 
pre_sigmoid_ hl, hi _ mean, hil_sample self.sample _h given v(v1_ sample) 
return [pre_sigmoiqd v1, v1 mean, v1_ sample, 

pre_sigmoiqd hi1i, hl mean, hil_samplel] 


如 前 所 述 ， 我 们 需要 定义 一 个 简单 的 函数 来 对 可 见 层 采样 : 


def gibbs_vhv (self, v0O_sample): 














pre_sigmoid_hi, hi _ mean, hl1_sample self.sample_h given v(v0_sample) 
pre_sigmoid_ vl, v1 mean, v1_sample self.sample _v_given h(hl_ sample) 
return [pre_sigmoiqd hi1i, hil mean, hl1_ sample, 

pre_sigmoiqd v1, v1 mean, v1_samplel] 


目前 编写 的 代码 给 出 了 模型 的 雏形 ， 其 中 设置 了 节点 和 展 ， 以 及 层 之 间 的 连接 。 该 段 代码 可 
以 基于 对 隐藏 层 的 Gibbs 采样 更 新 网 络 。 


但 我 们 还 缺少 代码 来 实现 以 下 步骤 。 
口 计算 模型 的 自由 能 。 如 前 所 述 ， 模 型 用 能 量 来 达成 以 下 目的 : 


昌 用 Gibbs 采样 的 相关 代码 完善 永久 对 比 散 度 , 并 设置 Gibbs 采样 的 计数 参数 k=1, 以 计 
算 梯 度 下 降 法 的 参数 梯度 ; 

a 构造 一 个 方法 ， 从 而 将 永久 对 比 散 度 的 结果 (计算 的 梯度 值 ) 传 到 先前 定义 的 网 络 更 
新 代码 中 。 


口 构造 方法 来 记录 受 限 玻 尔 兹 曼 机 的 训练 进度 和 结果 。 


首先 , 要 构造 计算 受 限 玻 尔 兹 曼 机 自由 能 的 方法 。 注意, 这 是 先前 讨论 过 的 隐藏 层 概率 分 布 
的 逆 对 数 : 


def free energy (self, v_sample): 




































































wx_b = T.dot(v_sample, self.W) + self.hbias 
vbias_term = T.dot(v_sample, self.vbias) 

hidden term = T.sum(T.log(1 + T.exp (wx_b)), axis=1) 
return -hidden term - vbias_term 


然后 ， 实 现 永久 对 比 散 度 。 这 里 我 们 要 设置 一 些 有 趣 的 参数 : 1r 是 学 习 率 ( learning rate ) 
的 缩写 ， 它 是 用 于 调整 学 习 速度 的 可 调节 参数 ; k 则 指 代 永 久 对 比 散 度 执行 的 步 又 数 。( 还 记得 
前 文 提 到 的 永久 对 比 散 度 -k 吗 ? ) 

前 面 讨论 过 永久 对 比 散 度 包含 两 个 阶段 , 即 正 相 位 阶段 和 负 相 位 阶段 。 以 下 代码 计算 了 永久 
对 比 散 度 的 正 相 位 阶段 : 
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def get_cost_updates(self，1Lr=0.1，Ppersistent = ，K=1) : 


pre_sigmoid ph, ph mean, ph_sample = self.sample h given v(self.input) 





chain_ start = persistent 


与 此 同时 ， 下 一 段 代码 实现 了 永久 对 比 散 度 的 负 相 位 阶段 。 我 们 用 Theano 包 的 scan 函数 2 
循环 执行 gsibpps_hvh 水 数 k 次 ， 每 次 循环 都 要 执行 一 次 Gibbs 采样 。 负 相位 阶段 结束 后 ， 就 可 
以 得 到 自由 能 

( 


pre_sigmoid_nvs, 
nv_means, 
nv_samples, 
pre_sigmoid_nhs, 
nh_means, 
nh_samples 

]; 

updates 

) = theano.scanl( 

self.gibbs_hvh, 

outputs_info=[None, None, None, None, None, chain start], 

n_steps=k 


chain_ end = nv_samples[-1] 


cost = T.mean(self.free energy (self.input)) - T.meanl( 
self.free energy (chain_end)) 


gparams = T.grad(cost, self.params, 
consider_constant=[chain_end]) 


写 完 执行 整个 永久 对 比 散 度 过 程 的 代码 后 , 还 需要 一 个 将 输出 项 传 给 网 络 的 方法 。 此 时 可 以 
将 永久 对 比 散 度 学 习 过 程 和 代码 相 结 合 ， 以 更 新 我 们 之 前 探讨 过 的 网 络 。 之 前 的 字典 (一 种 数据 
结构 ) updates 指向 了 Theano 中 执行 gsibbs_hvnh 函数 的 scan 函数 的 结果 。 你 可 能 还 记得 ， 
gipbs_hvh 目前 包含 theano_rng 的 随机 状态 规则 。 我 们 目前 要 做 的 是 ,在 字典 ( 变量 updates ) 
中 添加 包含 Gibbs 链 状态 的 新 参数 值 和 变量 : 


for gparam, param in zip(gparams, self.params): 
updates[param] = param - gparam * 了 了 .cast( 
lr, dtype=theano.config.floatx 








) 


updates = nh_samples[-1] 
monitoring_ cost = self.get_ pseudo_likelihood cost (updates) 


return monitoring_cost, updates 
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现在 几乎 具备 了 让 受 限 玻 尔 效 曼 机 运行 的 所 有 条 件 。 但 仍 缺 少 一 种 检查 训练 的 方法 , 无 论 是 
训练 过 程 中 还 是 训练 过 程 结 束 后 。 我 们 需要 确保 受 限 玻 尔 兹 曼 机 学 习 的 是 数据 的 恰当 表示 法 。 

前 文 讨论 了 如 何 训练 受 限 玻 尔 效 曼 机 ， 特 别提 及 了 配 分 函数 带 来 的 困难 。 此 外 , 在 编写 代码 
前 期 ， 我 们 实现 了 一 种 可 以 在 训练 过 程 中 检查 受 限 玻 尔 效 曼 机 的 方法 ， 还 构造 了 gibbs_vhv 拯 
数 来 对 模型 进行 Gibbs 采样 。 

在 前 文 讨论 如 何 验证 受 限 玻 尔 效 曼 机 时 , 我 们 探讨 了 如 何 将 受 限 玻 尔 兹 曼 机 创建 的 滤波 絮 可 
视 化 。 接 下 来 简要 回顾 该 实现 。 

最 后 的 改进 可 能 就 是 将 最 大 似 然 估 计 替 换 为 PL 的 道 对 数 ， 以 便 模 型 更 易 处 理 。 从 技术 上 来 


说 ，log-PL 是 每 个 数据 点 ( 每 个 x) 在 其 他 所 有 数据 点 的 条 件 下 的 对 数 概率 。 如 前 所 述 ， 当 数据 
集 过 大 、 维 数 过 多 时 ， 这 种 计算 的 成 本 会 过 高 ， 因 此 不 妨 使 用 log-PL 的 随机 近似 。 


我 们 引用 了 一 个 能 在 get_cost_updates 也 数 中 计算 PL 成 本 的 函数 ， 即 get_pseudo_ 
likelihooq_cost 函数 。 现 在 我 们 来 具体 定义 一 下 这 个 函数 ， 并 获取 伪 似 然 度 : 


def get_pseudo_likelihood cost (self, updates): 




























































































bit_i_idx = theano.shared(value=0, name='bit_ i idx') 
xi = T.round(self.input) 


fe xi = self.free energy (xi) 
Xl fii Tr Set. SUDtensor (xilis, it i idx]7 := Xil: bit 1 1dx]) 
fe xi_flip = self.free energy (xi_flip) 


cost = T.mean(self.n visible * T.log(T.nnet.sigmoid(fe xi_flip - fe xi))) 


updates[bit_i idx] = (bit_i_ idx + 1) %$ self.n visible 


return cost 


现在 补 上 了 所 有 缺失 的 部 分 ， 而 且 完 整 回顾 了 RBM 类 。 我 们 探究 了 每 个 元 素 和 受 限 玻 尔 效 
曼 机 缘 后 理论 的 联系 。 至 此 ,你 应 该 已 经 全 面 了 解 了 受 限 玻 尔 兹 曼 机 算法 的 运行 原理 。 我 们 知道 
了 受 限 玻 尔 兹 曼 机 的 输出 项 是 什么 , 并 且 很 快 就 能 够 检查 和 评估 模型 了 。 简 而 言 之 , 我 们 已 经 做 
好 训练 受 限 玻 尔 兹 曼 机 的 准备 了 。 训 练 受 限 玻 尔 兹 曼 机 需要 运行 以 下 代码 。 代 码 中 涉及 了 
train_set_x 图 数 ， 本 章 后 文 将 详细 讨论 该 旺 数 。 
trzain_rbm = theano.functionl( 
[index], 
cost, 
updates=updates, 
givens={ 
X: train set x[index * batch size: (index + 1) * batch sizel] 
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} ， 


Dame= 'train_rbm' 


) 


plotting _ time = 0. 
Start time = time.clock() 


更 新 过 受 限 玻 尔 兹 曼 机 的 updates 变量 和 训练 集 后 ,现在 可 以 开始 训练 了 。 在 每 次 从 代 中 ， 2 
先 训练 数据 ， 然 后 将 权重 绘制 为 矩阵 ( 如 本 音 前 文 所 述 ): 


for epoch in xrange (training_epochs): 





mean_cost = [] 
for batch index in xrange(n train batches): 
mean_cost += [train rpbm(batch index)] 


print 'Training epoch %d, cost is ' % epoch, 
numpy .mean (mean_cost) 


plotting_start = time.clock() 
image = Image.fEromarray ( 
tile raster_images( 
X=rbm.W.get_value (borrow=True) .T, 
img_shape=(28, 28),， 
tile_ shape=(10, 10), 
tile spacing=(1, 1) 
) 
) 
image.save('filters_at epoch %i.png' % epoch) 
plotting_stop = time.clock() 
plotting time += (plotting_stop - plotting_start) 


end time = time.clock() 
pretraining time = (end time - start time) - plotting time 


9 


print ('Training took %f minutes' % (pretraining time / 60.)) 

权重 的 图 像 一 般 比 较 容 易 识 别 ， 而 且 会 很 像 Gabor 滤波 器 ( 常用 于 图 像 边 缘 检测 的 线性 滤波 
器 )。 如 果 数 据 集 是 在 噪声 极 低 的 背景 上 的 手写 数字 ， 你 会 发 现 ， 权 重 (的 图 像 ) 能 体现 笔触 的 
痕迹 。 而 对 照片 数据 集 来 说 ， 滤 波 器 将 近似 地 追踪 图 像 的 边缘 。 图 2-5 就 是 一 个 输出 示例 。 




















图 2-5 


最 后 ,我们 构造 了 一 个 用 于 获取 采样 的 持续 Gibbs 链 。 如 前 所 述 , 以 下 函数 执行 了 一 步 Gibbs， 
然后 更 新 了 整 条 链 : 


plot_every = 1000 








( 


presig_hids, 
hiqd mfs, 
hiqd_samples, 
presig_vis, 
wi. MEFs, 
vis_samples 
J 
updates 
) = theano.scanl( 
rbm.gibbs_vhy, 
outputs_info=[None, None, None, None, None, persistent vis_ chain], 
n_steps=plot_every 


) 
这 段 代 码 运 行 了 之 前 提 到 的 gipbs_vhv 函数 , 来 对 抽样 后 的 网 络 输出 进行 绘图 , 以 便 检查 : 


updates.update({persistent vis_ chain: vis_ samples[-1]} 
sample_fn = theano.function( 
[]， 
[ 
visamfs[=1]s 
vis_samples[-1] 
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J 
updates=updates, 
name='sample_fn' 


) 


image_data = numpy.zZeros( 
(29 * n_samples + 1, 29 * n chains - 1)， 
dtype='uint8' 

) 


for idx in xrange(n_samples): 


vis_mf, vis_sample = sample_fn() 

print ' ... plotting sample ', idx 

image_datal[29 * idx:29 * idx + 28, :] = tile raster images( 
XV.ity 


img_shape=(28, 28), 
tile shape=(1, n_chains), 
tile spacing=(1, 1) 

) 


image = Image.fromarray (image_data) 
image.save('samples.png') 


至 此 , 受 限 玻 尔 兹 曼 机 已 经 完整 。 我 们 有 了 永久 对 比 散 度 算法 ， 也 能 用 该 算法 以 及 Gibbs 采 
样 来 更 新 网 络 ， 还 有 许多 可 视 化 输出 方法 ， 因 此 能 够 评估 受 限 玻 尔 兹 曼 机 的 训练 效果 。 


但 还 没 结束 ! 接 下 来 ， 我 们 将 介绍 最 常见 、 最 强大 的 受 限 玻 尔 效 曼 机 应 用 。 





2.2.3 ” 受 限 玻 尔 兹 曼 机 的 扩展 应 用 


我 们 既 可 以 将 受 限 玻 尔 兹 曼 机 本 身 作为 机 器 学 习 算 法 使 用 , 也 可 以 将 其 很 好 地 与 其 他 算法 结 
合 使 用 。 其 优势 在 于 能 扩充 至 对 高 维 数据 集 的 学 习 。 但 这 并 不 是 受 限 玻 尔 兹 曼 机 的 真正 强项 。 


受 限 玻 尔 兹 曼 机 最 常见 的 应 用 是 ， 作 为 称 作 深 度 信念 网 络 的 高 效 深 度 网 络 架构 的 预 训练 机 
制 。 深度 信念 网 络 是 一 种 可 用 来 学 习 和 分 类 一 系列 图 像 数据 集 的 强大 工具 , 它 的 泛 化 能 力 是 众多 
图 像 学 习 工 具 中 最 好 的 。 因 此 , 它 被 许多 世界 顶级 的 技术 公司 和 数据 科学 企业 采用 , 尤其 是 图 像 
搜索 和 图 像 识别 领域 。 


2.3 ”深度 信念 网 络 


深度 信念 网 络 是 一 种 使 用 多 个 堆 受 受 限 玻 尔 效 曼 机 构成 的 图 模型 。 其 中 第 一 个 受 限 玻 尔 效 曼 
机 基于 训练 数据 的 像素 点 训练 特征 层 ， 接 下 来 的 层 则 将 上 一 层 的 激活 值 作 为 像素 点 【输入 )， 并 
通过 之 后 的 隐藏 层 学 习 ( 更 多 的 ) 特征 。 该 过 程 通常 称 为 学 习 数据 的 表示 ， 这 是 深度 学 习 中 的 一 
个 常见 主题 。 













































































所 需要 的 受 限 玻 尔 兹 曼 机 的 数量 取决 于 待 处 理 问 题 的 需求 。 从 实际 角度 看 , 就 是 在 精确 度 和 
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计算 成 本 之 间 进 行 权 衡 。 每 个 受 限 玻 尔 兹 曼 机 层 都 会 提高 训练 数据 对 数 概率 的 下 限 。 换 句 话说， 
随 着 层 数 的 增加 ， 深 度 信 念 网 络 会 稳定 减少 犯错 误 的 可 能 。 


在 层 的 尺寸 方面 , 一 般 来 说 , 最 好 减少 相继 受 限 玻 尔 兹 曼 机 的 隐 蕊 层 中 的 节点 数 。 尽量 避免 
受 限 玻 尔 兹 曼 机 的 可 见 单 元 数 达 到 或 超过 上 一 层 受 限 玻 尔 兹 曼 机 的 隐藏 单元 数 ( 因为 这 样 容易 增 
加 网 络 的 识别 风险 )。 


比较 好 的 (但 绝 非 必须 ) 情况 是 ,相继 受 限 玻 尔 效 曼 机 的 层 逐 渐 缩 小 , 直到 最 后 一 层 受 限 玻 
尔 兹 曼 机 的 层 约 等 于 数据 中 方差 的 维度 数 。 在 节点 数 过 多 的 深度 信念 网 络 底层 附加 多 层 感知 机 会 
影响 分 类 效果 ,就 好 像 在 水 管 未 端 接 了 一 截 吸 管 一 样 。 多 层 感知 机 的 神经 元 再 多 ,训练 也 无 法 取 
得 成 功 。 另 一 方面 ， 即 使 层 包 含 的 节点 数 不 多 ， 但 层 数 够 多 ， 那 么 建 模 或 多 或 少 都 是 有 效 的 。 


决定 数据 中 方差 的 维度 数 并 非 易 事 。 上 一 章 中 介绍 过 的 辅助 工具 一 一 主 成 分 分 析 能 帮 有 我们 大 
致 了 解 输入 数据 中 存在 多 少 大 小 有 意义 的 成 分 。 

































































2.3.1 训练 深度 信念 网 络 


训练 深度 信念 网 络 的 过 程 通常 基于 贪心 算法 ,也 就 是 说 , 训练 的 目标 是 每 层 最 优 ， 而 非 全 局 
最 优 。 其 学 习 过 程 如 下 所 示 。 


口 我 们 用 前 面 有 关 受 限 玻 尔 兹 曼 机 学 习 的 讨论 中 涉及 的 方法 来 训练 深度 信念 网 络 的 第 一 
层 。 对 隐藏 单元 进行 Gibbs 采样 ， 将 第 一 层 的 数据 分 布 转化 成 后 验 分 布 。 

口 现在 的 分 布 比 输入 数据 的 分 布 更 有 助 于 受 限 玻 尔 兹 曼 机 训练 ， 因 此 ， 下 一 个 受 限 玻 尔 兹 
曼 机 层 可 以 学 习 这 个 分 布 了 。 

口 后 续 的 受 限 玻 尔 兹 曼 机 层 继续 用 上 一 层 的 输出 进行 训练 。 

口 使 用 一 种 性 能 评价 指标 调整 架构 中 的 所 有 参数 。 


性 能 评价 指标 有 多 种 。 如 本 章 前 面 所 说 , 它 可 以 是 梯度 下 降 法 用 到 的 对 数 似 然 蔡 代 指 标 。 在 
监督 学 习 中 , 可 以 将 分 类 器 〈 如 多 层 感 知 机 ) 作为 架构 的 最 后 一 层 ， 并 将 预测 精度 作为 性 能 评价 
指标 来 进行 深度 网 络 架构 的 微调 。 


接 下 来 我 们 将 实际 应 用 深度 信念 网 络 。 









































2.3.2 ”应 用 深度 信念 网 络 


讨论 完 深度 信念 网 络 及 其 相关 理论 后 , 现在 我 们 可 以 构建 自己 的 深度 信念 网 络 了 。 与 探讨 受 
限 玻 尔 兹 曼 机 时 相似 ， 我 们 先 定 义 一 个 DBN 类 ， 然 后 将 理论 与 代码 相 结 合 ， 讨 论 该 网 络 可 以 做 
什么 以 及 如 何 评价 网 络 的 性 能 ， 然 后 进行 初始 化 、 训 练 网 络 ， 并 查看 结果 。 


我 们 先 看 看 DBN 类 














class DBN (object): 


def _ init _(self, numpy_rng, theano_rng=None, n_ins=784, 
hidden_ layers_sizes=[500, 500], n_outs=10): 


self.sigmoid layers = [] 

self.rbm layers = [] 

self.params = [] 

self.n _ layers = len(hidden layers_sizes) 





assert self.n layers > 0 
if not theano_rng: 


theano_rng = RandomStreams (numpy_rng.randint (2 ** 30)) 


self.x 
self.y 


Tmatrix('x") 
Tiectort uy) 





DBN 类 包含 了 一 些 参数 ， 其 含义 需要 进一步 解释 。numpy_rng 和 theano_rng 用 于 定义 初 
始 权重 ， 学 习 RBM 类 时 已 经 介绍 过 了 。n_ins 是 指向 深度 信和 念 网 络 输 入 数据 维度 ( 特征 个 数 ) 
的 指针 。hiadqen_layers_sizes 是 记录 隐藏 层 每 层 尺 寸 的 列表 ， 列 表 中 的 每 个 值 会 指导 DBN 
类 构造 对 应 尺寸 的 受 限 玻 尔 效 曼 机 层 。 你 可 能 会 发 现 , n_layers 指 的 是 网 络 中 的 层 数 ， 并 且 由 
hidden_layers_sizes 决定 。 调整 该 列表 中 的 值 可 以 创建 深度 信和 念 网 络 , 其 层 尺 寸 从 输入 层 起 
逐渐 缩小 ， 对 数据 的 表示 越 来 越 简明 ， 如 前 所 述 。 


同样 值得 注意 的 是 ,self . sigmoid_layers 会 存储 多 层 感知 机 的 成 分 ( 深度 信念 网 络 的 最 
后 一 层 )， 而 self .rbm_layers 则 存储 受 限 玻 尔 效 曼 机 层 并 用 于 预 训练 多 层 感知 机 。 


完成 后 ， 按 以 下 步骤 完善 深度 信念 网 络 架 构 : 















































口 构造 n_layers 个 sigmoid 层 ; 

口 将 sigmoid 层 相 连 ， 形 成 多 层 感 知 机 ; 

口 利用 共享 权重 矩阵 为 每 个 sigmoid 层 构 建 受 限 玻 尔 兹 曼 机 ， 并 在 sigmoid 层 和 受 限 玻 尔 效 
曼 机 之 间 构 建 偏差 项 。 


以 下 代码 用 sigmoid 激活 函数 构建 了 n_layers 个 层 ， 首 先是 输入 层 ， 然 后 构造 了 尺寸 与 
higdden_layers_sizes 列表 中 的 值 相对 应 的 隐藏 层 : 


for i in xrange(self.n _ layers): 




















5 机 二 一 
input_size = n_ins 
else: 
input_size = hidden layers_sizes[i - 1] 
i 
layer_input = self.x 
else: 
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layer_input = self.sigmoid layers[-1] .output 

sigmoid_layer = HiddenLayer (rng=numpy_rng, 
input=layer_input, 
n_in=input_size, 
n_out=hidden layers_sizes[i], 
activation=T.nnet.sigmoid) 

self.sigmoid layers.append(sigmoid_ layer) 

self.params.extend (sigmoid layer.params) 

然后 ,构造 一 个 与 sigmoid 层 共享 权重 的 受 限 玻 尔 兹 曼 机 。 这 一 步 直 接 利用 了 之 前 所 说 的 RBM 
类 : 


rbm _ layer = RBM(numpy_rng=numpy_rng, 
theano_rng=theano_rng, 
input=layer_input, 
n_visible=input_size, 
n_hidden=hidden layers_sizes[i], 
W=sigmoid_ layer.W, 
hbias=sigmoid_ layer.b) 

self.rbm layers.append(rbm layer) 


最 后 ， 在 深度 信念 网 络 的 末尾 添加 一 个 逻辑 回归 层 ， 以 形成 多 层 感 知 机 : 


self.logLayer = LogisticRegression\( 
input=self.sigmoid_ layers[-1] .output, 
n_in=hidden_ layers_sizes[-1], 
n_out=n_outs) 

self.params .extend (self.logLayer.params) 








self.finetune cost = self.logLayer.negative_log_likelihood(self.y) 


self.errors = self.logLayer.errors(self.y) 


组 合 好 MLP 类 后 ， 就 可 以 构建 DBN 了。 以 下 代码 用 28 * 28 个 输入 项 ( 即 MNIST 图 像 数 


据 中 的 28x28 个 像素 )、3 个 尺寸 逐渐 缩小 的 隐藏 居 和 10 个 输出 值 (MNIST 数据 集 的 10 个 手写 
数字 类 ) 构造 了 网 络 。 


numpy_rng = numpy.random.RanadqomState(123) 

print '... building the model' 

dbn = DBN(numpy_rng=numpy_rng, n_ins=28 * 28, 
hidden_layers_sizes=[1000, 800, 720], 
n_outs=10) 


本 节 前 面 说 过 , 深度 信念 网 络 的 训练 分 为 两 个 阶段 一 一 每 个 层 用 上 一 层 的 输出 项 进行 训练 的 
层 预 训练 阶段 ， 以 及 允许 整个 网 络 调整 权重 的 细 调 阶段 ( 反 向 传播 阶段 )。 第 一 步 的 预 训练 要 














4 比 散 度 的 一 个 步骤 用 于 每 层 的 受 限 玻 尔 效 受 机 ， 如 下 所 示 : 


print '... getting the pretraining functions' 
pretraining_ fns = dbn.pretraining_ functions(train set x=train set_x, 
batch_ size=batch_ size, k=k) 








print '... pre-training the model' 
start_time = time.clock() 


for i In xrange(dbn.n_layers): 
for epoch in xrange (pretraining_ epochs): 
c= [] 
for batch index in xrange(n train batches): 
c.append (pretraining_fns[i] (index=batch_ index, 
lr=pretrain_ lr)) 
print 'Pre-training layer %i, epoch %d, cost ' % (i, epoch), 
print numpy .mean (c) 


end time = time.clock() 


运行 预 训练 后 的 深度 信念 网 络 则 可 以 通过 以 下 命令 来 实现 : 


Python code/DBN.py 


| 受 注意 ， 即 使 有 GPU 的 加 速 ， 预 处 理 也 要 花 很 长 时 间 ， 因 此 建议 你 在 夜间 运 ] 
< 人 -> 行 


这 上 段 代码 。 


2.3.3 ”验证 深度 信念 网 络 


我 们 非常 熟悉 验证 深度 信念 网 络 的 整个 过 程 。 可 以 将 交叉 验证 的 最 小 验证 误差 作为 一 种 误差 
测度 ， 但 最 小 交叉 验证 误差 会 低估 交叉 验证 数据 的 误差 ， 因 为 元 参数 可 能 会 过 度 拟 合 新 数据 。 


因此 , 应 该 先 用 交叉 验证 误差 来 调整 元 参数 ,直到 交叉 验证 误差 达到 最 小 。 然 后 将 深度 信念 
网 络 应 用 于 保留 的 测试 集 ， 将 测试 误差 作为 验证 测度 。DBN 类 执行 的 就 是 如 上 训练 过 程 。 


然而 ,我 们 仍然 不 知道 网 络 的 训练 是 否 充分 。 如果 深度 信念 网 络 的 表现 不 够 理想 , 该 怎么 办 呢 ? 


首先 要 识别 潜在 原因 。 存 在 很 多 常见 原因 。 我 们 知道 , 网 络 背 后 的 受 限 玻 尔 兹 曼 机 的 训练 是 
很 棘手 的 ， 其 中 每 个 单独 层 的 训练 都 有 可 能 遭遇 失败 。 好 在 RBM 类 让 我 们 能 够 看 到 每 个 层 生 成 
的 权重 《滤波 器 )， 而 且 我 们 还 可 以 将 权重 可 视 化 ， 以 了 解 网 络 到 底 想 要 表示 什么 。 


此 外 ,我 们 还 想 知 道 网 络 是 否 出 现 了 过 度 拟 合 或 欠 拟 合 。 这 两 种 情况 都 可 能 发 生 , 我 们 需要 
识别 情况 的 严重 程度 及 其 发 生 的 原因 。 在 欠 拟 合 的 情况 下 ,训练 过 程 可 能 单纯 找 不 到 适合 模型 的 
参数 ,这 在 使 用 更 大 型 的 网 络 解决 大 型 问题 空间 时 尤其 常见 , 但 也 可 能 发 生 在 较 小 的 模型 上 。 如 
果 你 的 深度 信念 网 络 出 现 了 欠 拟 合 问题 , 可 以 选择 以 下 两 种 方法 ,一 种 是 单纯 缩小 隐藏 层 的 尺寸 ， 
这 种 方法 可 能 成 功 , 也 可 能 失败 。 男 一 种 更 好 的 选择 是 逐渐 减少 隐藏 层 , 这 样 每 个 层 都 能 比 之 前 
的 层 学 习 到 更 精炼 的 数据 表示 。 至 于 如 何 做 、 减 少 多 少 、 何 时 停止 ， 都 与 第 一 种 情况 的 反复 试验 
和 基于 经 验 的 长 期 学 习 有 关 。 


过 度 拟 合 也 是 一 种 众所周知 的 现象 , 它 出 现在 算法 对 训练 数据 过 度 训 练 时 。 这 类 问题 相当 有 































































































害 ， 通 常 可 在 交叉 验证 中 被 识别 出 来 〈 此 时 错误 率 会 大 幅 升 高 ) 解决 过 度 拟 合 问题 的 方法 的 确 
存在 ， 比 如 可 以 增 大 训练 数据 集 的 规模 。 另 一 种 更 笨拙 的 贝 叶 斯 方法 是 ， 附 加 一 个 条 件 〈 如 某 种 
先 验 分 布 )， 以 降低 训练 数据 的 拟 合 度 。 提 升 分 类 效果 的 最 有 效 方 法 是 预 处 理 方法 ,第 6~7 章 将 
详细 探讨 该 问题 。 


虽然 这 段 代码 能 从 预定 义 的 情况 下 ( 给 定 种子 值 ) 初始 化 , 但 模型 的 随机 本 质 仍 会 导致 其 很 
快 出 现 偏离 ， 因 此 其 结果 是 多 样 的 。 在 我 的 系统 上 和 运行 深度 信念 网 络 时 ， 最 小 交叉 验证 误差 是 
1.19%。 更 重要 的 是 ， 经 过 46 次 监督 学 习 后 ， 测 试 误差 仅 为 1.30%。 这 些 结果 都 不 错 ， 甚 至 能 和 
行业 领先 的 案例 相 媲美 ! 



















































































2.4 扩展 阅读 


车 想 阅 读 神 经 网 络 的 入门 读物 ， 可 以 从 多 个 渠道 获取 。 需 要 考虑 的 注意 事项 有 很 多 ， 不 同 作 
者 会 侧重 不 同 主题 。Kevin Gurney 撰写 的 “An Introduction to Neural Networks” 提 供 了 完整 的 介绍 。 











若 需 要 马尔 可 夫 蒙 特 卡 洛 的 优质 资料 ， 参 见 http:/twiecki.github.io/blog/2015/11/10/mcmec- 
sampling/。 








如 果 对 Gibbs 采样 原理 感 兴趣 ,可 以 阅读 Philip Resnik 和 Eric Hardisty 的 论文 “Gibbs Sampling 
for the Uninitiated”。 这 篇 文章 的 技术 性 比较 强 ， 但 清晰 明了 地 描述 了 Gibbs 的 运作 方式 ， 而 且 值 
得 称赞 的 是 其 中 有 一 些 非常 棒 的 类 比 。 
对 比 散 度 的 高 质量 讲解 并 不 多 ， 我 比较 喜欢 的 一 篇 文章 是 Oliver Woodford 写 的 “Notes on 
Contrastive Divergence”。 如 果 你 被 过 多 公式 表达 困扰 ,不 妨 阅读 一 下 这 篇 文章 ， 其 中 的 理论 解释 
很 清晰 ， 而 且 包含 实际 问题 。 


本 章 使 用 的 Theano 文档 可 在 http://deeplearning.net/tutorial/contents.html 上 找到 ,这 是 受 限 玻 
尔 兹 曼 机 和 深度 信念 网 络 课程 讨论 和 实现 的 大 本 营 。 

































































2.5 小结 


本 章 介绍 了 不 少 内 容 ! 首 先 对 神经 网 络 做 了 综述 , 主要 关注 了 拓扑 学 和 学 习 方法 的 一 般 性 质 ， 
然后 深入 研究 了 受 限 玻 尔 效 曼 机 算法 和 受 限 玻 尔 效 曼 机 代码 本 身 。 扎实 掌握 这 些 知 识 后 ,着 手 构 
造 了 深度 信念 网 络 ， 并 将 深度 信念 网 络 的 理论 和 代码 相 结合 ， 然 后 在 MNIST 数据 集 上 应 用 深度 
信念 网 络 。 我 们 在 一 个 10 类 问题 中 应 用 了 图 像 分 类 ， 并 取得 了 非常 优秀 的 成 绩 一 一 分 类 误差 竟 
低 于 2%! 


下 一 童 将 引入 另 一 种 次 度 学 习 架 构 
SdA )， 你 将 继续 增强 深度 学 习 本 领 。 























堆 径 式 降 噪 自 编码 机 ( stacked denoising autoencoder， 


堆 又 式 降 噪 自 编码 机 














本 章 通 过 应 用 堆 径 式 降 噪 自 编 码 机 来 介绍 高 维 输入 数据 的 特征 表示 ， 继 续 构 建 深度 架构 。 


一 如 既往 ， 本 章 首 先 曾 释 自 编码 机 的 理论 和 概念 ， 详 细 介 绍 相 关 技 术 ， 以 及 如 何 将 自 编 码 机 
的 优势 融入 数据 科学 工具 组 件 ， 然 后 探讨 降 噪 自 编码 机 ( denoising autoencoder，dA ) 的 用 途 。 
它 是 一 种 算法 的 变 体 , 这 种 算法 能 向 输入 数据 人 工 引 入 随机 的 损坏 成 分 , 并 通过 自 编码 机 修复 损 
坏 的 数据 ， 从 而 构建 更 有 效 的 特征 表示 。 


同样 ,介绍 完 基础 理论 之 后 ,探讨 降 品 自 编码 机 类 的 代码 ， 并 将 理论 和 实现 细节 相 结 合 , 带 
领 读者 深入 探究 该 技术 。 
流程 与 上 一 章 相似 : 使 用 堆 苹 降 品 自 编码 机 构造 一 个 深度 架构 , 该 架构 能 预 训练 多 层 感 知 机 
网 络 ， 还 能 提升 许多 无 监督 学 习 应 用 ( 包括 语音 数据 处 理 ) 的 性 能 。 


3.1 自 编 码 机 


自 编码 机 《也 称 Diabolo 网 络 ) 是 深度 架构 的 一 个 重要 组 件 。 其 训练 方式 和 受 限 玻 尔 兹 曼 机 
类 似 , 因此 与 之 有 相通 之 处 ,但 自 编码 机 的 训练 比 包含 对 比 散 度 的 受 限 玻 尔 兹 曼 机 的 训练 更 简单 ， 
因此 在 后 者 的 训练 不 太 有 效 时 ， 自 编码 机 往往 表现 更 佳 。 


3.1.1 自 编码 机 简介 


自 编码 机 是 一 种 简单 的 3 层 神经 网 络 ， 其 输出 单元 直接 连接 回 输 入 单元 。 自 编码 机 的 目标 是 
将 i 维 输入 项 编码 为 h 维 的 表示 (有 h<i)， 然 后 在 输出 层 重 建 (解码 ) 输入 数据 。 其 训练 过 程 包括 
和 迭代 该 过 程 ， 直 到 重建 损失 〈 也 称 “ 重 构 误差 ”) 达到 最 小 ， 此 时 应 该 能 得 到 输入 数据 的 最 高 效 
表示 (排除 了 达到 局 部 最 小 值 的 可 能 )。 


前 面 介绍 过 一 种 强大 的 降 维 技术 一 一 主 成 分 分 析 , 而 自 编码 机 是 最 高 效 的 输入 数据 降 维 表示 
法 ， 两 者 毫 无 疑问 非常 相似 ， 读 考 可 能 会 感到 困惑 ， 为 什么 要 介绍 另 一 种 用 途 相同 的 技术 呢 ? 


答案 很 简单 ， 类似 于 自 组 织 映射 ， 自 编码 机 能 实现 非 线性 降 维 ， 因 此 与 主 成 分 分 析 相 比 ， 处 
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理 高 维 输入 数据 更 高 效 。 这 又 会 引发 疑问 : 既然 自 编码 机 和 自 组 织 映射 的 用 途 相同 ,又 没有 启发 
性 的 可 视 化 表示 ， 为 什么 要 学 习 自 编码 机 呢 ? 


简 而 言 之 ， 自 编码 机 更 成 熟 、 更 复杂 ， 降 噪 和 堆 县 技术 能 对 高 维 、 多 模 的 数据 降 维 ， 使 得 其 
训练 比 第 1 章 介绍 的 技术 更 简单 、 精 度 更 高 、 适 用 范围 更 广 。 

介绍 过 自 编码 机 的 性 能 后 ， 下 面 详细 介绍 其 拓扑 结构 和 训练 过 程 。 

1. 拓扑 结构 


前 面 讲 过 , 自 编码 机 的 结构 相对 简单 。 它 是 一 个 3 层 网 络 , 分 别 为 输入 层 、 隐 藏 层 和 输出 层 。 
输入 层 前 馈 到 隐藏 层 ， 然 后 是 输出 层 ， 这 与 绝 大 多 数 的 神经 网 络 架 构 相 同 。 一 个 值得 一 提 的 拓扑 
地 征 是 ， 隐 藏 层 的 节点 往往 比 输入 层 和 输出 层 的 更 少 。( 但 前 文 讲 过 ， 所 需 的 隐藏 节点 数量 其 实 
是 输入 数据 复杂 度 的 函数 ,隐藏 层 的 作用 是 限制 输入 层 的 信息 内 容 , 并 迫使 网 络 识别 表示 ,这 种 
表示 可 以 捕获 潜在 的 统计 性 质 以 用 于 数据 。 精 确 表示 非常 复杂 的 输入 项 需要 大 量 隐藏 节点 。) 


自 编 码 机 的 关键 特征 是 , 输出 层 往 往 要 设置 为 输入 层 的 内 容 。 自 编码 机 的 性 能 测度 是 , 在 其 
隐藏 层 内 编码 输入 层 ， 然 后 重建 输入 层 的 准确 度 。 自 编码 机 的 拓扑 结构 通常 如 图 3-1 所 示 。 








































































































输入 层 WN fm 














图 3-1 


输入 层 和 隐藏 层 之 间 的 编码 函数 将 输入 〈x ) 映射 为 新 形式 (y )。 下 面 这 个 输入 的 非 线性 函 
数 ( 本 例 中 指 sigmoid 函数 ，s ) 就 是 一 个 简单 的 映射 函数 。 


y=s(Wx+b) 


























然而 , 可 能 存在 或 需要 设置 更 复杂 的 编码 函数 以 适应 特定 对 象 领域 。 本 例 中 的 丈 表 示 赋 给 >x 
的 权重 值 ，b 是 一 个 可 调 变 量 ， 可 随 重 建 损失 的 最 小 化 进程 而 调节 。 


然后 ， 自 编码 机 通过 解码 输出 结果 。 重 建 是 为 了 取得 和 x 相同 的 结构 ， 转 换 过 程 如 下 所 示 。 
z=s(Wy+D") 


其 中 ,为 了 使 网 络 达 到 最 优 ，b' 和 克 通 常 也 是 可 配置 的 。 
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2. 训练 过 程 
如 前 所 述 ,网络 通过 最 小 化 重建 损失 来 进行 训练 ,度量 损失 的 一 个 常用 方法 是 简单 平方 误差 ， 
如 以 下 公式 所 示 。 


1 
5= 浊 -于 


如 果 输 入 项 的 形式 比较 特殊 ( 比如 一 组 比特 概率 ), 也 可 以 应 用 其 他 更 适合 的 误差 评估 指标 。 


虽然 目标 是 让 自 编 码 机 捕捉 输入 数据 集中 的 主要 变化 ,但 自 编码 机 仍 可 学 习 一 些 不 那么 有 用 
的 信息 ， 比 如 输入 项 的 恒 等 函数 。 






























































3.1.2” 降 噪 自 编 码 机 


虽然 自 编码 机 在 许多 场景 中 表现 出 色 , 但 并 不 适用 于 输入 数据 的 分 布 复 杂 且 必须 使 用 高 维 模 
型 建 模 的 情况 。 主 要 问题 是 ， 当 自 编码 机 的 输入 层 为 n 维 ， 而 编码 后 的 数据 维度 “至 少 为 x 时 ， 自 
编码 机 很 可 能 只 学 习 了 输入 项 的 恒 等 函数 。 此 时 ,编码 其 实 就 是 对 输入 层 的 复制 。 我 们 称 这 样 的 
自 编 码 机 过 完备 。 
























































训练 机 器 学 习 技 术 时 , 必须 理解 隐藏 层 的 维度 是 如 何 影 响 模 型 的 质量 的 。 当 
输入 数据 比较 复杂 , 而 隐藏 层 节点 过 少时 ,模型 就 无 法 有 效 地 捕捉 数据 特征 。 显 
” 然 ， 这 样 的 网 络 不 如 节点 更 多 的 网 络 的 训练 效果 好 。 

人 要 想 捕获 输入 数据 的 复杂 分 布 , 最 好 增加 隐藏 节点 数 。 当 隐藏 层 的 节点 数 至 
少 与 输入 层 的 相同 时 ,网 络 很 可 能 只 学 到 了 输入 层 的 恒 等 函数 。 此 时 , 输入 层 的 
每 个 元 素 都 当 作 具体 的 独特 案例 来 学 习 了 ,这 样 的 模型 对 训练 数据 的 模拟 效果 当 
然 非常 好 , 但 它 学 习 的 是 一 种 简单 模式 , 无 法 泛 化 到 其 他 数据 集 , 很 可 能 在 验证 

时 遭遇 灾难 性 的 失败 。 

该 现象 在 对 复杂 数据 ( 比如 语音 数据 ) 建 模 时 尤为 普遍 。 这 样 的 数据 的 分 布 往往 非常 复杂 ， 
因此 语音 信号 的 分 类 要 求 多 模型 编码 ， 隐 藏 层 的 维度 也 应 该 较 高 。 这 显然 也 会 增加 自 编码 机 (或 
大 量 模 型 ， 因 为 这 不 是 自 编码 机 独 有 的 问题 ) 学 习 恒 等 函数 的 风险 。 

虽然 (很 令 人 意外 ) 过 完备 自 编码 机 的 确 可 以 在 某 些 情况 下 (例如 第 一 个 隐藏 层 需要 非常 小 
的 权重 ， 以 确保 隐藏 单元 线性 排列 且 后 续 权 重 值 较 大 ) 学 习 误 差 最 小 化 表示 法 , 但 很 难 针 对 这 种 
情况 进行 优化 ， 因 此 需要 用 其 他 方法 防止 过 完备 自 编码 机 学 习 恒 等 函数 。 


有 很 多 方法 能 防止 过 完备 自 编码 机 学 习 恒 等 函数 , 并 确保 其 在 数据 的 表示 中 仍 能 捕获 有 效 信 




























































































Q9 即 “隐藏 层 维度 "。 一 一 译 者 注 
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息 。 目 前 最 常用 的 方法 是 在 输入 数据 中 引入 噪声 , 迫使 自 编 码 机 训练 噪声 数据 ,学 习 其 分 布 和 统 
计 规律 性 ， 而 不 是 恒 等 函数 。 许 多 方法 能 高 效 地 完成 这 项 工作 ， 比 如 “ 稀 琉 约束 ”或 dropout 技 
术 (其 中 输入 值 将 随机 设置 为 0 )。 


本 童 将 用 dropout 技术 为 输入 数据 引入 噪声 。 通 过 这 种 方法 ， 近 半数 的 输入 项 将 随机 设置 
为 0。 我 们 将 构造 一 个 随机 扰动 过 程 来 干预 输入 数据 ， 代 码 如 下 所 示 。 


def get_corruptedqd_ input (self, input, corruption level): 











return self.theano_ rng.binomial (size=input.shape, n=1, p=1 - corruption level, 
dtype=theano.config.floatXx) * input 
为 了 准确 地 对 输入 数据 建 模 , 自 编码 机 必须 通过 损坏 数据 来 预测 未 损坏 数据 , 然后 学 习 有 用 
的 统计 性 质 ( 即 分 布 )。 


除了 能 防止 自 编码 机 学 习 数 据 的 恒 等 值 , 添加 降 噪 过 程 还 能 使 模型 面 对 输 入 的 变动 或 失真 时 
表现 得 更 加 稳健 。 该 过 程 尤 其 适用 于 噪声 较 多 的 输入 数据 ， 比 如 语音 数据 或 图 像 数据 。 前 言 提 到 
了 ,深度 学 习 技术 的 显著 优势 之 一 是 ,其 算法 能 将 特征 工程 的 需求 最 小 化 。 许 多 学 习 算 法 能 重建 
降 噪 输入 数据 并 将 其 用 于 模型 训练 , 但 需要 对 输入 数据 进行 元 长 而 复杂 的 预 处 理 ( 比如 图 像 信号 
滤波 或 音频 信号 处 理 )， 而 降 噪 自 编码 机 只 需 要 极 少 的 预 处 理 步 又 便 能 高 效 完成 上 述 工作 ， 从 而 
大 幅 节约 同等 准确 率 下 的 训练 时 间 。 

最 后 , 请 注意 , 学 习 输 入 数据 的 恒 等 函 数 的 自 编码 机 可 能 会 出 现 根本 上 的 配置 错误 。 由 于 自 
编码 机 有 寻找 特征 集 的 低 维 表 示 的 额外 功能 , 学 习 了 输入 数据 的 恒 等 函 数 的 自 编 码 机 可 能 单纯 是 
因为 节点 过 多 。 如 有 疑问 ,不妨 试 试 减少 隐藏 层 节 点 。 

拓扑 结构 使 得 模型 可 以 高 效 训练 数据 并 提升 自 编码 机 的 降 噪 功能。 介绍 完 该 结构 后 ,下 面 将 
理论 付 诸 实践 ， 看 看 降 噪 自 编码 机 的 Theano 代码 。 

































































3.1.3 ”应 用 降 噪 自 编码 机 
下 面 介绍 降 噪 自 编码 机 的 实现 。 再 次 强调 ， 这 次 还 是 用 Theano 库 来 应 用 一 个 dA 类 。 


与 上 一 章 的 RBM 类 不 同 ， 降 噪 自 编码 机 相对 简单 ， 而 将 降 品 自 编码 机 的 功能 与 本 章 前 面 介 
绍 的 理论 和 数学 知识 联系 起 来 也 很 简单 。 

第 2 章 应 用 了 一 个 RBM 类 ， 虽 然 其 中 包含 的 元 素 不 是 受 限 玻 尔 效 曼 机 正常 运作 所 必需 的 ， 
但 这 让 多 层 深 度 架 构 共 享 参 数 成 为 可 能 。 下 面 将 使 用 的 aa 类 能 处 理 相 似 的 共享 元 素 ， 利 用 这 些 
共享 元 素 可 以 构建 多 层 自 编码 机 架构 ， 稍 后 详 述 。 

首先 初始 化 一 个 aa 类 。 指 定 可 见 单元 的 数量 (n_visible ) 和 隐藏 单元 的 数量 (n_hidden )。 
指定 输入 的 配置 (input )、 权 重 (w )、 隐 藏 偏差 值 和 可 见 偏差 值 ( 分 别 为 bhia 和 bvis )。 这 4 
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额外 的 变量 能 使 自 编码 机 接收 深度 架构 中 其 他 元 素 的 配置 参数 。 


class dA(object): 











def _ init_ _( 
self, 
numpy_rng, 
theano_rng=None, 
input=None., 
n_visible=784, 
n_hidden=500, 
W=None, 


bhid=None, 
) 


self.n visible = n visible 
self.n hidden = n_hidden 


然后 初始 化 权重 变量 和 偏差 变量 。 给 权重 向 量 丈 赋 一 个 初始 值 initial_w， 该 值 是 在 取 值 
范围 内 随机 均匀 抽样 得 到 的 。 














4* | - EE 一 to 4* = =、~ 
(n_hidden +n_ visible) (Cpa he 














然后 用 numpy .zeros 将 可 见 偏差 变量 和 隐藏 偏差 变量 设置 为 0 的 数组 。 


if not theano_rng : 
theano_rng = RandomStreams (numpy_rng.randint (2 xx 30)) 


if not W: 
Initial _W = numpy.asarray( 

numpy_rng.uniform( 
low=-4 * numpy.sqrt(6. / (n_ hidden + n_visible)), 
high=4 * numpy.sqrt(6. / (n_ hidden + n visible)), 
size=(n_ visible，n hidden) 

) 

dtype=theano.config.floatx 


) 
W = theano.shared(value=initial _W, name='W', borrow=True) 


if not bvis: 
bvis = theano.shared!( 
value=numpy .Zeros ( 
n_visible, 
dtype=theano.config.floatx 
J 
borrow=True 


if not bhid: 
bhid = theano.shared!( 
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Value=numpy .zeros ( 
n_hidden, 
dtype=theano.config.floatx 
j 
name='b', 
borrow=True 


) 


如 前 所 述 ， 自 编码 机 可 以 用 y=s(Wxe+D) 等 映射 来 进行 可 见 层 和 隐藏 层 的 转换 。 为 了 实现 这 样 
的 转换 ， 必 须 先 定义 Ww、b、W' 和 b' ， 这 些 参数 与 前 面 介绍 的 自 编 码 机 参数 bnida、pvis 和 W 
相关 ， 其 中 Ww' 和 b' 在 以 下 代码 中 写作 W_prime 和 b_prime。 


self.W= W 
self.b = phid 
self.b prime = bvis 
self.W_prime = self.W.T 
self.theano_rng = theano_rng 
if input is None: 
self.x = T.dmatrix(name='input') 
else: 
Self ,x = input 





























self.params = [self.W, self.b, self.b_ prime] 


这 段 代 码 分 别 将 b 和 Pb_prime 设置 为 bhid 和 bvis, 将 W_prime 设置 为 w 的 转 置 ， 也 就 是 
说 ， 这些 权重 互相 关联 。 自 编码 机 有 了 时 ( 并非 总 是 ) 会 使 用 绑 定 权重 (也 称 “ 受 限 权重 ”), 原因 
如 下 。 


口 很 多 时 候 绑 定 权重 能 提升 结果 的 质量 ( 虽然 这 些 情况 下 的 最 佳 方法 是 主 成 分 分 析 ， 但 带 
有 关联 权重 的 自 编码 机 也 能 达到 同等 效果 ), 

口 绑 定 权重 能 减少 需要 存储 的 参数 数量 ， ee 

口 最 重要 本 绑 定 权重 能 起 到 正则 化 作用 ， 需 要 优化 的 参数 少 了 一 个 。( 可 能 出 错 的 事情 
也 少 了 一 件 ! ) 


但 在 其 他 情况 下 ， 更 常用 且 更 合适 的 还 是 未 绑 定 〈 未 受 限 ) 权重 。 的 确 ， 如 果 输 入 数据 是 多 
模 的 ， 而 且 最 优 和 解码 需 是 对 一 系列 非 线 性 统计 规律 进行 建 模 ,线性 模型 (比如 主 成 分 分 析 ) 就 不 
能 有 效 地 模拟 出 非 线性 趋势 ， 此 时 未 绑 定 权重 反而 效果 更 佳 。 


设置 好 自 编码 机 的 参数 后 , 下 面 定 义学 习 用 的 函数 。 前 面 讲 过 , 通过 向 输入 数据 中 添加 噪声 ， 
自 编码 机 可 以 有 效 地 学 习 输 入 数据 编码 后 的 数据 表示 ， 这 种 数据 表示 可 以 反 过 来 重建 为 输入 数 
据 。 下 面 编写 该 功能 对 应 的 函数 。 首 先 损坏 输入 数据 。 


def get_corruptedqd_ input (self, input, corruption_ level): 
return self.theano_ rng.binomial (size=input.shape, n=1, p=1 - corruption level, 
dtype=theano.config.floatXx) * input 


损坏 的 程度 由 参数 corruption_level 设置 。 前面 讲 过 , dropout 技 术 对 输入 数据 施加 的 损 
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坏 通常 不 会 超过 50%( 0.5 )。 该 函数 按照 与 输入 数目 成 正比 (比例 等 于 corruption level ) 
的 数量 随机 抽取 实例 ， 生 成 长 度 等 同 于 输入 数据 的 损坏 向 量 ， 其 分 量 为 一 系列 0 和 1， 其 中 
corruption_level 个 分 量 为 0。 损 坏 的 输入 向 量 就 是 自 编码 机 输入 向 量 和 损坏 向 量 的 简单 乘积 。 


def get_ hidden values(self, input): 
return T.nnet.sigmoid(T.dot (input, self.W) + self.b) 


用 代码 实现 公式 y=s(WVx+b) 并 获取 隐藏 值 y。 为 获取 自 编码 机 的 输出 值 ( z )， 需 要 再 写 一 段 
代码 来 重建 隐藏 屋 ， 将 前 面 定 义 的 b_prime 和 W_prime 代入 公式 z= s(W'y+b')。 


defget_reconstructedqd_ input (self, hidden): 
returnT.nnet .sigmoid(T.dot (hidden, self.W prime) + self.b prime) 


最 后 ， 还 需要 计算 成 本 更 新 。 前 面 回顾 了 一 个 简单 的 成 本 函数 ， 即 简单 平方 误差 测量 
已 = 相 =- 砷 )。 下 面 将 输入 项 ( x ) 和 重建 给 出 项 ( z ) 代入 该 成 本 函数 来 计算 成 本 更 新 。 

















def get_cost _ updates (self, corruption level, learning rate): 


tilde x = self.get_ corrupted input (self.x, corruption_ level) 
y self.get_hidden values (tilde_ x) 

z self.get_reconstructed_input (y) 

LER 6 0 ts A 全 坟 记忆 二 在 浊 

cost = T.mean (E) 


gparams = T.grad(cost, self.params) 
updates = [ 
(param, param - learning_rate * gparam) 
for param, gparam in zip(self.params, gparams) 


] 
return (cost, updates) 
这 样 就 得 到 可 以 运行 的 降 噪 自 编 码 机 了 。 用 它 可 以 对 输入 数据 的 非 线性 性 质 进行 建 模 ,以 及 
学 习 输入 数据 的 有 效 低 维 表示 。 但 自 编码 机 的 强大 之 处 其 实体 现在 多 个 自 编码 机 堆 县 时 ,这 是 深 
度 架构 的 基本 构成 要 素 。 


3.2 ” 堆 私 式 降 噪 自 编 码 机 


虽然 自 编码 机 本 身 即 是 实用 工具 , 但 可 以 堆 琶 自 编码 机 来 构造 深度 网 络 , 以 达到 更 高 的 准确 
度 。 为 此 ， 需 要 将 一 层 编 码 机 生成 的 表示 传 给 下 一 层 编码 机 ， 作 为 该 层 的 输入 项 。 
前 许多 顶尖 数据 科学 团队 使 用 堆 受 式 降 噪 自 编码 机 ( stacked denoising autoencoder，SdA ) 
复杂 的 自然 语言 分 析 以 及 信号 、 图 像 和 文本 分 析 等 。 


县 式 降 噪 自 编码 机 的 实现 与 上 一 章 的 深度 信念 网 络 非常 相似 。 堆 释 式 降 噪 自 编码 机 的 使 用 
念 网 络 中 的 受 限 玻 尔 兹 曼 机 的 使 用 大 同 小 异 。 深 度 架 构 的 每 一 层 都 包含 一 个 降 噪 自 编 
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码 机 和 sigmoid， 前 者 用 于 预 训练 后 者 。 堆 受 式 降 品 自 编码 机 的 性 能 测度 是 训练 集 误差 ， 包 含 一 
个 层 对 层 ( 逐 层 ) 预 训 练 的 高 强度 阶段 ， 能 在 最 后 的 微调 阶段 前 逐渐 匹配 网 络 参 数 。 在 微调 过 程 
中 , 使 用 验证 集 和 测试 集 来 训练 网 络 , 更 新 迭代 更 少 , 但 更 新 步 长 更 大 。 训 练 的 目标 是 使 网 络 能 
在 微调 结束 时 收敛 ， 以 得 到 准确 结果 。 


除了 深度 网 络 的 典型 优势 ( 能 学 习 复杂 或 高 维 数 据 集 的 特征 表示 , 以 及 无 须 大 量 特征 工程 就 
能 训练 模型 )， 堆 番 式 自 编码 机 还 有 其 他 一 些 有 趣 的 性 质 。 


正确 配置 的 堆 和 至 式 自 编码 机 能 捕获 输入 数据 的 层级 分 组 ( hierarchical grouping )。 堆 钱 式 降 品 
自 编 码 机 的 连续 层 可 以 学 习 更 高 级 的 特征 。 第 一 层 可 能 只 学 到 输入 数据 中 的 一 些 一 阶 特征 ( 比如 
照片 中 的 边缘 )， 第 二 层 可 以 学 到 一 阶 特征 的 一 些 组 合 ( 比如 通过 结合 轮 廊 信息 和 结构 信息 来 学 
习 特 定 部 位 的 边缘 )。 

层 数 和 层 大 小 的 确定 没有 固定 法 则 。 建议 多 试 几 个 模型 参数 取 值 , 以 寻找 最 住 组 合 。 试验 时 ， 
最 好 选用 超 参 数 优化 技术 或 遗传 算法 ( 稍 后 介绍 )。 

更 高 的 层 可 以 学 习 更 高 阶 的 特征 ， 使 得 堆 闭 式 自 编 码 机 能 识别 面部 特征 、 字 母 /数字 字符 或 
一 些 事 物 的 泛 化 形式 ( 比如 一 只 乌 )。 能 学 习 输 入 数据 中 非常 复杂 的 高 层次 抽象 信息 是 堆 羞 式 降 
品 自 编码 机 的 专长 。 
自 编码 机 可 以 无 限 堆 芭 ,而 且 事 实证 明 , 堆 敌 得 越 多 ,深度 架构 就 越 高 效 ( 此 时 主要 约束 变 
成 了 时 间 上 的 计算 成 本 )。 本 章 将 堆 肆 3 层 自 编码 机 来 实践 自然 语言 处 理 。 







































































































































































3.2.1 ”应 用 堆 琶 式 降 噪 自 编 码 机 


介绍 过 作为 深度 学 习 架 构 的 堆 剧 式 降 品 自 编码 机 的 优势 和 强大 之 处 后 , 下 面 用 真实 数据 集 来 
实践 所 学 内 容 。 


这 次 不 处 理 图 像 数 据 集 ， 转 而 处 理 OpinRank Review 数据 集 。 该 数据 集 来 自 加 州 大 学 欧文 分 
校 机 器 学 习 数 据 仓 库 , 是 一 个 包含 259 000 条 TripAdvisor 旅馆 评价 的 文本 数据 集 。 该 免费 数据 集 
包含 评分 ( 浮 点 数 ， 取 值 范 围 为 1~5 ) 和 大 量 对 旅馆 的 评价 文本 。 下 面 用 堆 琶 式 降 噪 自 编 码 机 来 
处 理 该 数据 集 ， 通 过 评价 文本 判断 每 个 旅馆 的 评分 。 



































A 下 面 将 用 自 编码 机 分 析 预 处 理 过 的 数据 ( 可 从 本 章 的 GitHub 附件 中 获取 )， 
并 探讨 为 下 一 章 准 备 文 本 数据 的 技术 。 源 数据 的 下 载 地 址 为 https://archive.ics. 


uci.edu/ml/datasets/OpinRank+Review+Dataset。 





首先 创建 一 个 堆 受 式 降 品 自 编码 机 (〈 以 下 称 作 saa ) 类 。 
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class SdA(object): 


def __ init_ _( 
self, 
numpy_rng, 
theano_rng=None, 
n_ins=280, 
hidden_ layers_sizes=[500, 500],， 
NOUtSSS; 
corruption levels=[0.1, 0.1] 
县 


前 文 提 过 ,通过 将 一 层 自 编码 机 的 编码 传送 给 下 一 层 作 为 其 输入 项 ,构造 出 了 sgA。 该 类 支 
持 配置 层 数 ( 体现 在 hidden_lavers_sizes 和 corruption_levels 向 量 的 长 度 上， 但 不 是 
由 这 两 个 变量 设置 的 ) 和 展 大 小 〈 即 不 同 的 节点 数 , 由 hiqqen_layers_sizes 设置 )。 如 前 所 
述 ， 能 配置 连续 的 自 编码 机 层 是 获得 数据 成 功 表示 的 关键 。 


然后 构造 变量 来 存储 sda 的 多 层 感知 机 ( self .sigmoid_layers ) 和 降 噪 自 编码 机 ( self. 
dA_layers ) 元 素 。 为 了 声明 架构 的 深度 ,用 self .n_layers 参数 声明 所 需要 的 sigmoid 和 降 
噪 自 编码 机 层 的 数量 。 

self.sigmoiqd_ layers = [] 

self.dA_ layers = [] 


self.params = [] 
self.n_ layers = len(hidden layers_sizes) 












































assertself.n_ layers> 0 
接着 构造 sigmoid 和 降 噪 自 编 码 机 层 。 首 先 根据 输入 向 量 的 长 度 或 前 一 层 激活 值 的 数量 来 确 
定 隐 藏 层 的 大 小 ， 然 后 创建 sigmoia_layer 和 aa_layer， 后 者 来 自前 面 提 到 的 da 类 。 


for i in Xxrange(selft.n_ layers): 
生计 下 三 














[es 


input_size = n_ins 
else: 
input_size = hidden layers_sizes[i - 1] 


layer_input = self.x 
else: 
layer_input = self.sigmoid layers[-1] .output 


sigmoid_ layer = HiddenLayer (rng=numpy_rng, 
input=layer_input, 
n_in=input_size, 
n_out=hidden_ layers_sizes[i], 
activation=T.nnet .sigmoid) 


self.sigmoid_ layers.append(sigmoid_ layer) 
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self.params.extend (sigmoid layer.params) 


dA_layer = dA(numpy_rng=numpy_rng, 
theano_rng=theano_rng, 
input=layer_input, 
n_visible=input_size, 
n_hidden=hidden layers_sizes[i], 
W=sigmoid_layer.W, 
bhid=sigmoid_layer.b) 


self.dA_layers.append(dA_layer) 


实现 了 堆 苹 式 降 品 自 编码 机 的 层 后 ， 最 后 还 需要 一 个 逻辑 回归 层 来 完成 网 络 的 多 层 感知 机 
部 分 。 


self.logLayer = LogisticRegression( 
input=self.sigmoid_ layers[-1] .output, 
n_in=hidden_ layers_sizes[-1], 
OuUt=TL :OutES 








) 


self.params.extend(self.logLayer.params) 
self.finetune cost = self.logLayer.negative_log_likelihood(self.y) 
self.errors = self.logLayer.errors (self.y) 


至 此 ， 堆 释 式 降 品 自 编 码 机 的 架构 就 基本 完成 了 。 下 一 步 需 要 生成 saa 类 要 使 用 的 训练 函 
数 。 每 个 函数 都 会 将 每 个 小 批 次 的 索引 ( index ) 和 其 他 一 些 元 素 作为 参数 ， 这 里 选择 
corruption_level 和 1learning_rate， 这 样 可 以 在 训练 过 程 中 调节 它们 ( 比如 逐渐 增 大 或 
减 小 ) 另外， 还 定义 了 确定 批 次 开始 和 结束 的 变量 ,分 别 为 batch_begin 和 batch_engd。 


























动态 调整 学 习 率 非常 有 用 ， 0 当 技 术 开 始 收敛 到 合适 的 
解决 方案 时 ， 降 低 学 习 率 将 非常 有 用 ， 否则 网 络 可 能 在 最 优 值 附 近 上 下 摆动 而 
无 法 达到 最 优 。 在 很 多 情况 下 ， 将 学 习 率 与 网 络 测度 挂钩 也 是 一 种 有 效 
的 方法 。 如 果 误 差 率 很 高 ， 最 好 做 较 大 调整 ， 直 到 误差 率 开 始 降 低 。 


def pretraining_functions (selLf，train_set_X，batch size) : 
index = T.lscalar('index') 
corruption level = T.scalar('corruption') 
learning_ rate = T.scalar('lr') 
batch begin = index * batch size 
batch_end = batch begin + batch size 


pretrain fns = [] 
for dA in self.dA layers: 
cost, updates = dA.get_cost_ updates (corruption level, 
learning_rate) 
fn = theano.functionl( 
inputs=[ 
index, 
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theano.Param(corruption level, default=0.2), 
theano.Param(learning_rate, default=0.1) 
Ts 
outputs=cost, 
updates=updates, 
givens={ 
self.x: train set x[batch begin: batch _ end] 
} 
) 
pretrain_fns.append (fn) 


return pretrain fns 


所 构造 的 预 训练 函数 以 每 个 小 批 次 的 inaex 为 输入 ， 也 可 选用 损坏 水 平 或 学 习 率 。 该 函数 
执行 预 训 练 这 一 步骤 ， 输 出 成 本 值 和 权重 更 新 向 量 。 


除了 预 训练 外 ,还 需要 构造 微调 阶段 的 函数 。 在 微调 阶段 ,网 络 将 在 验证 数据 和 测试 数据 间 
和 欠 代 ， 以 优化 网 络 参 数 。 以 下 代码 中 的 训练 函数 (train_fn ) 实现 了 一 步 简单 的 微调 。 
valid_score 是 一 个 Python 函数 , 它 用 saa 在 验证 数据 上 生成 的 误差 测度 计算 验证 集 得 分 。 与 
之 相似 ，test_score 在 测试 集 上 计算 得 分 。 


为 了 实现 上 述 目 标 , 首先 需要 建立 训练 集 、 验 证 集 和 测试 集 , 每 个 阶段 都 需要 两 个 数据 集 ( 集 
合 x 和 集合 y )， 分 别 包含 特征 和 类 标签 。 验 证 和 测试 所 需 的 小 批 次 的 数量 是 确定 的 ， 还 需要 构 
造 一 个 索引 ( index ) 来 追踪 批 次 大 小 〈 并 判断 批 次 的 起 止 位 置 )。 每 个 批 次 都 要 进行 训练 、 验 
证 和 测试 ， 然 后 计算 所 有 批 次 的 valiqd_score 和 test_score。 


def pbuilgd finetune functions(self, datasets, batch size, learning rate): 























Uy 








(train set x, train set y) = datasets[0] 
(valid_ set x, valid set y) = datasets[1] 
(test_set x, test_set y) = datasets[2] 





n_valid batches = valiqd set x.get_value (borrow=True) .shapel[0] 
n_valiqd batches /= batch_ size 

n_test_ batches = test_set x.get_value (borrow=True) .shape[l0] 
n_test_batches /= batch_ size 


index = T.lscalar('index') 


gparams = T.grad(self.finetune cost, self.params) 


updates = [ 
(param, param - gparam * learning_ rate) 
For param, gparam in zip(self.params, gparams) 


] 


train_ fn = theano.function( 
inputs=[index], 
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outputs=self.finetune cost, 
updates=updates, 
givens={ 
self.x: train set x[ 
index * batch size: (index + 1) * batch size 
]， 
self.y: train set yl[ 
index * batch size: (index + 1) * batch size 


和 


Darme= 'train' 


test_score_i = theano.function( 

[index], 

self.errors, 

givens={ 
self.x: test_set_xl[ 
index * batch size: (index + 1) * batch size 

]， 

self.y: test_set_yL[ 
index * batch size: (index + 1) * batch size 


SS 
names test" 


valid_score_ i = theano.function( 
[index], 
self.errors, 
givens={ 
self.x: valid set xl[ 
index * batch size: (index + 1) * batch size 
| 
self.y: valiqd set yl 
index * batch size: (index + 1) * batch size 


站 
name='valid' 


def validq_score() : 


return [valiqd score i(i) for i inxtrange (nn_validq_batches) ] 


def test_score(): 


return [test_score i(i) for i inxrange(n test_ batches)] 


return train fn, valiqd score, test_score 


训练 函数 就 绪 后 ， 启 动 堆 琶 式 降 噪 自 编码 机 ， 代 码 如 下 所 示 。 


numpy_rng = numpy.random.RanadqomState(89677) 
print '... building the model' 
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sda = SdA( 
numpy_rng=numpy_rng, 
n_ins=280,， 
hidden layers_sizes=[240, 170, 100]， 
n_outs=5 

















请 注意 ， 此 时 应 de se 看 看 效果 如 何 。 本 例 中 的 层 数 也 是 初始 测试 的 产 
物 。 前 面 讲 过 ，saa 的 训练 有 两 个 阶段 : 第 一 阶段 是 逐 层 预 训练 ， 遍 历 所 有 sda 层 ; 第 二 阶段 
是 基于 验证 集 和 训练 集 进 行 微调 。 


为 了 预 训练 SadA,， 需要 针对 每 层 的 训练 设置 损坏 水 平 ， 并 用 之 前 定义 的 pretraining_fns 
来 遍历 各 层 。 
print '... getting the pretraining functions' 


pretraining_ fns = sda.pretraining_ functions(train set x=train set_x, 
batch_size=batch_ size) 









































print '... pre-training the model' 
start_time = time.clock() 
GOErUDEtLOn LeveLre a [ls 527 Ca2] 


for i In xrange(sda.n_layers): 


for epoch in xrange (pretraining _ epochs): 
c= [] 
for batch index in xrange(n train batches): 
c.append (pretraining_ fns[i] (index=batch_ index, 
corruption=corruption levels[i]， 
lr=pretrain_ lr)) 


9 


print 'Pre-training layer %i, epoch %d, cost ' % (i, epoch), 
print numpy.mean(c) 

end_ time = time.clock() 

print(('The pretraining code for file ' + 


os.path.split(_ file )[1] + ' ran for %$.2fm' %$ ((end time - start time) / 60.)), 
file = sys.stderr) 


现在 可 以 初始 化 saa 类 了 ， 需 要 调用 本 书 的 GitHub 库 中 的 代码 : MasteringMLWithPython/ 
Chapter3/SdA .py。 





3.2.2 ”评估 堆 琶 式 降 噪 自 编 码 机 的 性 能 


堆 苹 式 降 噪 自 编码 机 的 运行 非常 耗 时 。 每 层 迭 代 15 次 ,平均 需要 11 分 钟 ， 因 此 在 一 个 配置 
了 GPU 加 速 和 单线 程 GotoBLAS 的 台式 机 上 运行 大 约 需 要 500 分 钟 。 


对 于 没有 GPU 加 速 的 系统 来 说 ， 网 络 的 训练 将 耗 时 更 长 ， 因 此 建议 在 小 得 多 的 输入 数据 集 




















Uy 
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上 运行 男 一 种 代码 : MasteringMLWithPython/Chapter3/SdA_no_ blas.py。 


结果 很 好 ， 验 证 误差 得 分 为 3.22%， 测 试 误差 得 分 为 3.14%。 鉴 于 自然 语言 处 理 经 常 出 现 模 
校 两 可 或 其 他 环 手 问题 ， 这 个 结果 已 经 非常 不 错 了 。 

显然 ,网 络 对 1 星 和 5 星 数据 分 类 的 正确 率 比 中 间 水 平 的 更 高 ， 因 为 缺少 极端 倾向 或 情绪 化 
语言 所 导致 的 语义 模糊 。 

输入 数据 可 分 类 的 部 分 原因 在 于 有 效 的 特征 工程 。 虽 然 特 征 工程 很 耗 时 ， 有 时 还 会 出 错 , 但 
正常 运行 的 特征 工程 和 最 优 模型 相 结合 就 能 达到 很 高 的 准确 率 。 第 6 章 将 应 用 一 些 技巧 来 对 数据 
进行 预 处 理 。 




















3.3 扩展 阅读 
谷歌 大 脑 团队 的 Quoc V. Le 撰写 了 一 篇 自 编码 机 (还 涉及 其 他 话题 ) 的 概述 ， 参 见 
https://cs.stanford.edu/~quocle/tutorial2.pdf。 


本 章 使 用 的 Theano 文档 参见 http://deeplearning.net/tutorial/contents.html， 该 文档 是 本 章 内 容 
的 基础 ， 因 为 Theano 是 本 章 使 用 的 主要 软件 库 。 





3.4 小 结 





本 章 介 绍 了 自 编码 机 ， 这 种 降 维 技术 非常 高 效 ， 有 许多 独特 的 应 用 ; 还 介绍 了 堆 莅 式 降 噪 自 
编码 机 背后 的 理论 。 堆 苹 式 降 品 自 编码 机 是 对 自 编码 机 的 拓展 ， 即 通过 深度 架构 将 一 系列 自 编码 
机 堆 二 起来。 堆 倒 式 降 品 自 编码 机 可 用 于 解决 环 手 的 自然 语言 处 理 问题 ,并且 效 果 极 佳 ， 这 在 旅 


馆 评 价 的 情感 分 析 问 题 中 达到 了 较 高 的 准确 度 。 
下 一 前 将 讨论 监督 深度 学 习 方法 ， 包 括 卷 积 神经 网 络 。 
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卷 积 神经 网 络 























本 章 介 绍 如 何 应 用 卷 积 神经 网 络 ( convolutional neural network，CNN )， 这 可 能 是 最 知名 的 
深度 架构 了 。 本 章 主 要 内 容 如 下 : 


口 CNN 的 拓扑 结构 和 学 习 过 程 ， 包 括 卷 积 层 和 池 化 层 
口 用 CNN 组 件 构建 网 络 架 构 
口 用 Python 代码 实现 CNN 架构 来 解决 著名 的 图 像 分 类 问题 








4.1 CNN 介绍 


在 机 器 学 习 领 域 , 人 们 长 期 致力 于 使 用 代码 构造 类 似 于 生物 结构 的 架构 , 例如 多 层 感知 机 神 
经 网 络 ， 其 拓扑 结构 和 学 习 过 程 都 受到 了 人 脑 神经 元 的 启发 。 


实践 证 明 , 这 种 (仿生 的 ) 偏好 确 有 成 效 。 针 对 特定 任务 , 我们 能 以 最 优 的 特定 生物 学 结构 
为 模板 和 线索 ， 设 计 和 创建 出 强大 的 学 习 模型 。 


CNN 的 灵感 来 自视 觉 皮 层 ， 后 者 是 大 脑 中 处 理 视觉 输入 的 区 域 。 视 觉 皮 层 的 功能 多 样 ， 
此 可 以 有 效 地 处 理 视觉 数据 ,而 且 它 包含 许多 受 体 细胞 ， 因 而 能 检测 到 视野 重 铸 区 中 的 光 。 所 有 
受 体 细胞 都 执行 同一 种 卷 积 运算 ， 即 它们 处 理 输入 的 方式 相同 。CNN 的 设计 包含 了 这 些 功能 ， 
因此 其 拓扑 结构 与 其 他 神经 网 络 有 着 显著 差异 。 


毫 不 夸张 地 说 ， 目 前 CNN 是 人 工 智能 和 机 器 学 习 中 许多 有 影响 力 的 先进 技术 的 基础 。CNN 
的 各 种 变 体 广泛 应 用 于 复杂 的 视觉 和 语言 等 领域 ， 示 例如 下 。 


口 谷歌 开发 了 一 系列 专业 CNN 架构 ,包括 GoogLeNet, 它 有 22 层 。 此 外 , 谷歌 的 DeepDream 
项 目 〈 因 训练 过 度 、 生 成 的 图 像 风 格 梦 幻 而 得 名 ) 也 使 用 了 CNN。 

口 卷 积 网 络 已 经 训练 得 能 下 围棋 ( 对 人 工 智 能 来 说 ， 围 棋 一 直 是 挑战 )， 与 高 排名 玩家 对 战 
的 胜率 在 85%~91%。 

口 Facebook 的 人 脸 识别 (DeepFace ) 也 使 用 了 卷 积 网 络 。 

口 许多 团队 都 用 CNN 开发 新 一 代 智 能 应 用 ， 例 如 百度 、 微 软 研究 院 、IBM 和 Twitter。 
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近年 来 , 目标 识别 大 赛 ( 比如 2014 年 的 ImageNet 大 赛 ) 的 胜 者 大 都 应 用 了 极为 专业 的 CNN， 
或 CNN 与 其 他 架构 相 结 合 的 多 模型 集成 。 

第 8 章 将 介绍 如 何 构造 并 有 效应 用 集成 方法 ， 本 章 则 关注 CNN 在 大 规模 图 像 分 类 问题 上 的 
成 功 应 用 。 














4.1.1 CNN 拓 扑 结构 


有 的 读者 可 能 熟悉 CNN 的 架构 。 这 是 一 个 非 循环 图 ， 层 内 节点 数 逐 渐 减 少 ， 每 一 层 都 反馈 
到 下 一 层 。 这 与 许多 知名 网 络 拓扑 结构 相似 ， 比 如 多 层 感知 机 。 


与 其 他 大 多 数 网 络 最 显著 的 区 别 是 ，CNN 的 所 有 神经 元 都 相同 。 所 有 神经 元 包含 相同 的 参 
数 和 权重 值 。 显 然 , 这 直接 减少 了 网 络 控 制 的 参数 个 数 ， 大 大 提升 了 存储 效率 。 此 外 ， 由 于 需要 
控制 和 计算 的 自由 参数 更 少 ， 因 此 往往 能 提高 网 络 的 学 习 速 度 。 稍 后 会 介绍 ， 共 享 权重 也 使 得 
CNN 能 学 习 输 入 〈 比如 输入 图 像 或 音频 信号 ) 中 与 位 置 无 关 的 特征 。 


卷 积 网 络 与 其 他 染 构 的 为 一 个 关键 区 别 是 , 节点 之 间 的 连接 性 受 限 , 因此 能 构造 局 部 空间 连 
接 模 式 ， 即 反馈 给 特定 节点 的 输入 将 限制 在 邻近 的 感受 野 内 的 节点 上 。 这 可 以 是 空间 上 连续 的 ， 
比如 图 像 数 据 。 每 个 神经 元 的 输入 最 终 都 取 自 图 像 的 连续 子 集 。 对 音频 信号 来 说 , 输入 可 能 是 连 
续 的 随时 间 变 化 的 滑动 窗口 。 


下 面 举例 说 明 ， 并 讲解 卷 积 网 络 如 何 通 过 特定 节点 处 理 图 像 的 特定 部 分 。CNN 第 一 层 的 节 
点 将 会 分 配 到 输入 图 像 的 子 集 。 在 本 例 中 ， 假 设 每 个 节点 都 得 到 3 像素 x3 像素 的 图 像 子 集 。 这 
些 子 集 能 构成 整个 图 像 ， 节 点 的 输入 不 存在 重 普 ,也 没有 间隔 。( 注意 ， 以 上 这 些 条 件 对 CNN 来 
说 并 不 一 定 正确 。) 每 个 节点 分 配 到 3 像素 x3 像素 的 图 像 了 集 ( 节点 的 感受 野 ， 也 称 “ 窗 口 ” )， 
并 输出 转换 后 的 输入 。 这 里 先 不 考虑 该 转换 的 具体 情况 。 


通常 输出 项 会 传送 至 第 二 层 的 节点 。 本 例假 设 第 二 层 采 用 第 一 层 节 点 的 所 有 输出 的 子 集 。 比 
如 采用 原始 图 像 的 连续 6 像素 x6 像素 子 集 ， 即 其 感受 野 包含 上 一 层 4 个 节点 的 输出 ， 见 图 4-1。 
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第 二 层 























图 4-1 
每 一 层 都 是 可 组 合 的 , 一 个 卷 积 层 的 输出 可 以 作为 下 一 层 的 输入 。 这 和 第 3 章 提 到 的 作用 相 
同 ， 连 续 层 能 提取 更 高 层次 、 更 抽象 的 特征 。 此 外 ， 在 向 下 构造 架构 ( 即 添加 新 层 ) 时 ， 数 据 的 
表示 将 与 更 大 范围 内 的 像素 空间 相关 。 通 过 堆 释 层 ， 最 终 可 以 生成 整个 输入 项 的 全 局 表示 。 
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1. 卷 积 层 


前 面 讲 过 , 为 了 防止 每 个 节点 学 习 无 法 预测 ( 而 且 很 难 调节 ) 的 一 系列 局 部 自由 参数 ， 必 须 
共享 整个 层 的 权重 。 为 了 确保 完全 精确 ,应 用 于 卷 积 层 的 滤波 右 是 一 组 滤波 帮 ， 其 滑动 作用 ( 即 
卷 积 ) 于 整个 输入 数据 集 ， 从 而 形成 输入 数据 的 二 维 激活 映射 ， 称 为 “特征 映射 ”。 


滤波 器 由 4 个 超 参数 控制 : 大 小 、 深 度 、 步 长 《也 称 “ 步 幅 ”) 和 补 零 (也 称 “0 填充 ”)。 
滤波 器 的 大 小 就 是 其 范围 《显然 ， 等 于 高 乘 宽 ， 滤 波 器 不 一 定 是 矩形 )。 更 大 的 滤波 器 会 增 大 重 
县 面积 ， 也 会 提升 分 类 准确 度 ， 稍 后 详 述 。 关 键 是 ， 增 大 滤波 器 会 使 得 输出 项 更 大 。 控 制 卷 积 层 
输出 的 尺寸 将 在 很 大 程度 上 影响 网 络 的 效率 。 


深度 指 的 是 连接 输入 项 同一 区 域 的 层 内 节点 数 。 理解 此 概念 的 关键 在 于 认识 到 , 无 论 人 还 是 
网 络 ， 观 察 图 像 时 都 会 处 理 很 多 性 质 “。 参 见 PS 中 的 图 像 调整 滑 块 。 就 其 本 身 而 言 ,深度 有 时 也 
称 作 “维度 ”"， 它 与 图 像 的 复杂 程度 密切 相关 。 这 不 是 指 图 像 内 容 的 复杂 程度 ， 而 是 指 准确 描述 
图 像 所 需 的 通道 数 。 


将 节点 映射 为 输入 图 像 的 RGB 值 后 ,合理 的 深度 设置 可 以 生成 摘 述 颜色 的 通道 ， 因 此 深度 
通常 设置 为 3 ( 尤其 是 在 第 一 个 卷 积 层 )。 请 注意 ， 有 些 季 点 会 学 习 表达 输入 图 像 不 易 描述 的 特 
性 ， 从 而 使 得 CNN 对 图 像 的 学 习 更 精准 。 增 大 深度 超 参 数 使 得 节点 可 以 学 习 更 抽象 的 输入 信息 
的 编码 ， 这 样 做 有 利 也 有 弊 。 


过 小 的 深度 参数 会 导致 结果 较 差 ， 因 为 网 络 的 表达 深度 〈 从 通道 数 的 角度 看 ) 达 不 到 要 求 ， 
无 法 准确 描述 输入 数据 的 特征 。 该 问题 与 特征 不 足 的 问题 相似 , 但 前 者 更 容易 解决 。 可 以 上 调 网 
络 的 深度 来 提升 CNN 的 表达 深度 。 

过 小 的 深度 参数 不 但 多 余 , 甚至 会 影响 之 后 的 性 能 。 不 妨 考虑 在 网 络 配 置 阶段 通过 超 参数 优 
化 来 选择 合适 的 深度 值 ， 比 如 肘 部 法 或 其 他 技术 。 

步 长 度量 的 是 神经 元 之 间 的 空间 。 步 长 为 1 将 使 得 输入 中 的 每 个 元 素 ( 比如 图 像 输入 的 每 个 
像素 ) 都 成 为 滤波 器 实例 的 中 心 ， 从 而 带 来 高 度 重 肆 和 极其 庞大 的 输出 。 增 大 步 长 可 以 减少 感受 
时 中 的 重 关 ,缩减 输出 的 大 小 。 微 调 CNN 的 步 长 就 是 在 准确 率 和 输出 大 小 间 做 权衡 。 通 常 较 小 
的 步 长 效果 更 好 。 另 外 ， 步 长 为 1 可 以 控制 池 化 层 的 向 下 采样 和 适度 缩减 。 


图 4-2 生动 阐释 了 深度 和 步 长 。 





































































































































































































GD 不同 的 图 像 性 质 对 应 模型 不 同 的 滤波 器 。 一 一 译 者 注 





4.1 CNN 介绍 59 























































































































图 42 


最 后 一 个 超 参数 补 零 则 提供 了 一 种 便利 。 补 零 指 设置 每 个 感受 野 的 边缘 值 ( 边界 )， 这 可 以 
降低 该 层 的 输出 大 小 。 可 以 将 感受 野 最 外 层 或 最 外 几 层 的 像素 值 设 为 0, 输出 大 小 也 会 相应 改变 。 
这 种 做 法 存在 限制 ,如 果 设 置 完 补 零 和 步 长 后 ,输入 数据 的 某 些 区 域 和 滤波 器 不 相 接 ， 显 然 有 问 
题 。 更 普遍 的 情况 是 ,加重 补 零 程度 会 降低 效率 ， 因 为 过 于 粗糙 的 编码 会 导致 学 习 特征 的 难度 加 
大 ( 稍 后 详 述 )。 

但 补 零 仍 是 有 用 的 工具 , 可 以 通过 补 零 将 输入 项 和 输入 项 的 大 小 调 为 一 致 。 这 种 做 法 很 常用 。 
通过 补 零 来 确保 输入 层 和 和 输出 层 相等 ， 便 于 控制 步 长 和 深度 值 。 如 果 没 有 补 零 这 一 步骤 ,可 能 需 
要 做 大 量 工作 来 追踪 输入 大 小 、 控 制 网 络 参 数 ， 只 为 确保 网 络 可 以 正常 运作 。 另 外 , 补 零 也 能 提 
升 性 能 ， 如 果 不 这 么 做 ，CNN 在 滤波 器 边缘 的 性 能 就 会 逐渐 降低 。 

为 了 在 定义 CNN 时 调整 节点 数 、 最 适宜 步 长 和 连续 层 的 填充 值 (也 称 “ 填 充 像素 ” )， 必 须 
知道 上 一 层 的 输出 大 小 。 可 以 将 上 一 层 的 输出 项 (O ) 作为 输入 图 像 大 小 〈 丈 )、 滤 波 器 大 小 (下 
步 长 (5S) 和 补 零 数 量 (PP) 的 函数 ， 如 下 所 示 。 


0O- W—-F+2P 
S+l 
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如 果 O 不 是 整数 ,滤波 器 就 不 会 完美 贴 合 输入 项 ， 而 会 越过 输入 项 的 边缘 。 这 会 给 训练 带 
来 一 些 问 题 ( 比如 报错 )。 通 过 调整 步 长 值 ， 可 以 找到 O 的 一 个 整数 解 ， 然 后 有 效 地 进行 训练 。 
在 给 定 其 他 超 参 数值 和 输入 大 小 的 情况 下 ， 通 常会 将 步 长 限制 在 可 能 的 范围 内 。 


前 面 讨论 了 如 何 通过 超 参 数 正 确 配置 卷 各 层 ， 但 未 讨论 卷 积 过 程 本 身 。 与 加 法 和 导数 相同 ， 
卷 积 也 是 一 种 数学 运算 ， 在 信和 号 处 理 领 域 应 用 颇 多 ， 也 常用 于 简化 复杂 公式 。 


大 致 说 来 ， 卷 积 是 对 两 个 函数 的 运算 ,其 结果 是 生成 第 三 个 函数 ,该 函数 是 两 个 原始 输入 函 
数 其 中 一 个 的 修改 版 本 。 对 CNN 中 的 卷 积 而 言 , 两 个 原始 输入 函数 中 的 第 一 个 就 是 网 络 的 输入 。 
如 果 应 用 于 图 像 ， 那么 卷 积 要 应 用 于 二 维 空 间 ( 图像 的 宽 和 高 )。 输入 图 像 通常 是 3 个 像素 矩阵 ， 
分 别 为 红色 、 蓝 色 、 绿 色 通 道 的 矩阵 ， 每 个 通道 的 值 的 范围 是 0~255。 
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， 这 里 需要 引入 张 量 ( tensor ) 的 概念 。 在 深度 学 习 中 ， 张 量 经 常 指 代 输 入 数 

据 的 n 维 数组 或 矩阵 , 它 与 矩阵 或 数组 非常 相似 。 本 章 和 第 9 章 将 详细 介绍 张 量 

(第 9 章 将 介绍 TensorFlow 库 )。 值 得 注意 的 是 ， 该 术语 在 机 器 学 习 社 区 重 获 关 
注 ， 很 大 程度 上 归功 于 谷歌 机 器 智能 研究 团队 。 























卷 积 运算 的 第 二 个 成 分 是 卷 积 核 , 这 是 一 个 以 浮 点 型 数值 为 元 素 的 矩阵 , 用 作 输 入 矩阵 的 滤 
波 器 。 卷 积 运算 的 输出 项 是 特征 映射 。 卷 积 运算 的 原理 是 ,在 输入 上 滑动 滤波 器 ,在 每 个 实例 上 
计算 两 个 参数 的 点 积 ， 然 后 记录 在 特征 映射 上 。 如 果 卷 积 层 的 步 长 为 1， 就 需要 对 输入 图 像 的 每 
个 像素 进行 运算 。 

卷 积 的 主要 优势 是 能 降低 对 特征 工程 的 需求 。 构 造 、 控 制 复杂 的 核 和 进行 高 度 专业 化 的 特征 
工程 是 项 艰巨 的 工作 , 并 且 在 某 个 领域 表现 优异 的 特征 工程 往往 不 适合 其 他 领域 , 这 就 更 为 棘手 
了 。 第 7 章 将 详细 介绍 特征 工程 ， 而 卷 积 网 络 是 行 之 有 效 的 候选 方案 。 


CNN 能 逐渐 提升 其 核对 输入 数据 筛选 信息 的 能 力 ， 从 而 自动 优化 核 。 多 核 并 行 学 习 加 速 了 
该 过 程 。 这 就 是 前 面 提 过 的 特征 学 习 。 这 种 学 习 既 节省 了 时 间 ， 也 有 助 于 解决 很 多 问题 。 与 之 前 
讲 过 的 堆 释 式 降 噪 自动 编码 机 和 深度 信念 网 络 实现 类 似 ， 稍 后 将 学 到 的 特征 传递 到 一 个 更 简单 、 
更 浅 的 神经 网 络 ， 并 用 这 些 特 征 对 输入 图 像 进行 分 类 。 

2. 池 化 层 

堆 释 卷 积 层 能 构造 拓扑 结构 ， 从 而 为 复杂 的 含 噪 输入 数据 高 效 构建 特征 ， 以 形成 特征 映射 。 
但 卷 积 层 并 不 是 深度 网 络 的 唯一 组 件 。 卷 积 层 通常 会 和 池 化 层 交 替 出 现 。 池 化 是 对 特征 映射 进行 
的 运算 , 它 将 多 个 特征 值 聚合 成 一 个 值 ， 其 途径 多 为 最 大 值 ( 最 大 池 化 , max-pooling )、 均值 ( 平 
均 池 化 ，mean-pooling ) 或 加 和 (加 和 池 化 ，sum-pooling ) 运算 。 

池 化 这 种 方法 非常 自然 , 优势 显著 。 如 果 不 对 特征 映射 进行 聚 类 ,那么 特征 可 能 会 过 多 。 下 
面 即 将 进行 分 类 的 CIFAR-10 数据 集 包 含 60 000 幅 32 像素 x32 像素 的 图 像 ， 假 设 对 每 幅 图 像 的 8 
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像素 x8 像素 子 集 学 习 200 个 特征 ， 则 最 后 得 到 的 输出 向 量 的 大 小 为 32-8+1)x(32-8+1)x200， 即 
对 每 幅 图 像 学 习 了 125 000 个 特征 。 卷 积 会 生成 大 量 特征 ， 其 计算 成 本 高 昂 ， 同 时 也 会 引发 严重 
的 过 度 拟 合 问题 。 


池 化 运算 的 男 一 个 主要 优势 是 较为 稳健 , 能 够 应 对 高 维 含 噪 数据 中 的 许多 小 偏差 和 变化 。 具 
体 而 言 ， 池 化 能 防止 网 络 学 习 过 于 个 别 的 特征 位 置 ( 即 过 度 拟 合 )， 这 显然 是 图 像 处理 和 识别 问 
题 的 必要 条 件 。 通 过 池 化 ,网 络 不 再 将 输入 数据 的 抽取 特征 固定 在 特定 位 置 ， 从 而 提升 了 泛 化 能 
力 ， 这 叫 作 平 移 不 变性 (translation-invariance )。 


最 大 池 化 是 最 常用 的 池 化 运算 , 因为 它 专 注 于 问题 中 最 具 响 应 性 的 特征 , 理论 上 可 以 为 图 像 
识别 和 分 类 找 出 最 佳 特征 。 类似 地 , 最 小 池 化 适用 于 需要 进行 额外 工作 来 防止 分 类 过 于 敏感 或 过 
度 拟 合 的 情况 。 

显然 , 通过 直接 池 化 方法 ( 比如 最 大 池 化 ) 快速 部 署 模 型 是 明智 的 。 然 而 ,为 了 确保 模型 能 
在 后 续 迭 代 中 持续 提升 网 络 性 能 ， 需 要 判断 池 化 运算 有 没有 改进 的 可 能 。 可 以 自 定 义 池 化 运算 ， 
这 没有 什么 实际 限制 。 找 到 更 有 效 的 二 次 抽样 方法 或 其 他 聚 类 方法 可 以 大 幅 提 升 模型 性 能 。 

用 theano 代码 实现 最 大 池 化 非常 简单 ， 如 下 所 示 。 


from theano.tensor.signal import downsample 

































































input = T.dtensor4('input') 

maxpool_shape = (2, 2) 

pool_out = downsample.max_pool_ 2d(input, maxpool_shape, ignore_ border=True) 
f = theano.function([input],pool_out) 


max_pool_24 也 数 将 n 维 tensor 和 降 尺 度 因 子 (本 例 中 指 input 和 maxpool_shape ) 
作为 参数 , 其 中 maxpool_shape 是 一 个 长 度 为 2 的 元 组 , 包含 输入 图 像 的 宽度 和 高 度 降 尺度 因 
子 。 然 后 max_pool_2d 会 根据 元 组 向 量 的 两 个 维度 进行 最 大 池 化 运算 。 


invals = numpy.random.RandomState(1) .randq(3，2，5，5) 








pool_out = downsample.max_pool_ 2d(input, maxpool_shape, ignore border=False) 
f = theano.function([input],pool_out) 


ignore_border 判断 要 考虑 或 舍弃 边缘 值 。 假设 ignore_border = True， 那么 这 次 最 
大 池 化 运算 将 生成 如 下 矩阵 。 


[[ 0.72032449 0.39676747] 
[ 0.6852195 0.87811744]] 


如 上 所 示 ， 池 化 是 一 种 简单 运算 ,而 结果 令 人 满意 ( 本 例 中 5x5 的 输入 矩阵 简化 成 了 2x2 )。 
然而 ， 这 种 运算 方式 也 有 人 劣势。Geoffrey Hinton 对 此 做 出 了 相当 有 趣 的 点 评 
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“在 CNN 中 进行 池 化 运算 是 严重 的 错误 ， 它 运行 得 那么 好 简直 是 灾难 。 

如 果 池 之 间 不 存在 重 登 ， 池 化 就 会 丢失 重要 的 位 置信 息 ， 而 我 们 需要 用 这 些 信 息 来 
检测 物体 组 成 部 分 间 的 准确 关系 。 的 确 ， 如 果 池 的 重 登 部 分 足够 多 ， 就 会 将 特征 的 位 置 
“ 粗 编码 ”以 准确 存储 (我 在 1986 年 发 表 的 有 关 “ 分 布 式 表达 ”的 文章 中 解释 了 这 种 效 
应 )， 但 我 现在 不 认为 粗 编码 是 表示 物体 相对 于 观察 者 的 姿态 ( 指 位 置 、 朝 向 和 大 小 ) 
的 最 佳 方法 了 。 


语 出 惊人 , 但 不 无 道理 。Hinton 认为 , 作为 聚合 方法 , 池 化 和 其 他 聚合 方法 的 效果 完全 相同 ， 
即 把 数据 降 维 到 更 简单 、 信 息 更 少 的 形式 。 这 无 伤 大 雅 ， 但 Hinton 考虑 得 更 长 远 。 


即使 将 每 个 池 中 的 数据 都 简化 为 一 个 值 , 仍 可 寄 希 望 于 空间 中 重 关 的 几 个 池 还 能 保留 特征 编 
码 。( 这 就 是 Hinton 所 说 的 “ 粗 编码 ”。) 这 也 是 个 非常 直观 的 概念 。 假 设 听 到 一 段 有 噪声 的 无 线 
电 频 段 信号 ， 即 使 只 辨别 出 1/3 的 单词 ， 也 很 可 能 听 出 船舶 发 出 的 遇险 信和 号 ! 


Hinton 又 指出 ， 粗 编码 不 是 学 习 姿 态 〈 位 置 、 朝 向 和 大 小 ) 的 有 效 手段 。 根 据 视 角 的 不 同 ， 
物体 的 排列 方式 多 样 , 这 使 得 两 幅 图 像 很 难 完全 相同 , 而 姿态 的 多 样 性 对 使 用 池 化 的 卷 积 网 络 而 
言 是 一 个 巨大 挑战 。 这 童 味 着 ， 只 有 攻克 这 一 挑战 才能 突破 图 像 分 类 的 上 限 。 


然而 ， 目 前 普遍 认为 即使 承认 以 上 所 有 论断 ，CNN 中 的 池 化 运算 仍 在 效率 和 平移 不 变性 上 
有 着 巨大 优势 。 这 是 目前 最 好 的 选择 了 。 


Hinton 还 给 出 了 CNN 的 一 个 替代 方案 一 一 转化 自 编码 机 。 转 化 自 编码 机 能 为 精度 要 求 高 的 
学 习 任 务 〈 比如 人 脸 识别 ) 提升 精度 ， 而 池 化 运算 会 降低 精度 。 如 果 对 转化 自 编码 机 感 兴趣 ， 参 
见 4.2 节 ， 其 中 提供 了 一 些 阅读 材料 。 


前 面 详细 介绍 了 CNN， 包 括 其 组 件 、 运 行 原理 和 超 参数 。 将 理论 付 诸 实 践 前 ， 有 必要 介绍 
一 下 如 何 用 这 些 组 件 构建 工作 架构 。 下 面 首先 讲解 如 何 训练 CNN。 


3. 训练 CNN 


CNN 的 训练 方法 与 前 几 章 讲 的 训练 方法 类 似 。 卷 积 架构 本 身 可 用 于 预 训 练 更 简单 的 网 络 架 
构 〈 比如 多 层 感知 机 )。 反 向 传播 算法 是 预 训练 阶段 计算 梯度 的 标准 方法 。 在 此 过 程 中 ， 每 层 都 
会 经 历 以 下 3 个 步骤 。 


口 正 推 法 ( forward pass ) : 将 所 有 特征 映射 与 对 应 核 的 权重 进行 卷 积 并 求 和 和 有， 以 计算 出 下 
一 层 的 每 个 特征 映射 。 

口 逆 推 法 (backward pass ) : 将 转 置 的 内 核 权重 与 输出 对 应 的 梯度 进行 卷 积 ， 以 计算 输入 对 
应 的 梯度 。 

口 计算 每 个 核 的 损失 ， 从 而 按 需 调 整 每 个 核 的 权重 。 




































































































































































4.1 CNN 介绍 63 





重复 该 过 程 能 提升 核 的 性 能 ， 最 终 实现 收敛 。 这 里 需要 得 到 一 系列 特征 ， 从 而 让 受 限 网 络 高 
效 地 对 这 些 特征 进行 分 类 。 

该 过 程 可 能 会 执行 得 很 缓慢 ， 即 使 是 在 非常 先进 的 GPU 上 和 运行。 一些 新 技术 能 加 速 该 训练 
过 程 ， 例 如 用 快速 傅 里 叶 变 换 来 加 速 卷 积 过 程 ( 卷 积 核 大 小 与 输入 图 像 几 乎 相等 时 )。 

4. 汇总 组 件 


前 面 探讨 了 构建 CNN 所 需要 的 元 素 ， 下 面 介绍 如 何 组 合 这 些 元 素 以 构造 有 效 的 卷 积 网 络 ， 
以 及 哪 种 组 合 方式 更 有 效 。 下 面 以 一 些 现成 的 CNN 架构 为 指导 ， 讲 解 模型 的 常规 用 法 和 适用 
领域 。 

















最 知名 的 卷 积 网 络 可 能 就 是 Yann LeCun 的 LeNet 了 。 自 20 世纪 80 年 代 未 LeNet-l 问世 以 来 ， 
该 网 络 经 历 了 多 次 迭代 ， 在 处 理 手写 数字 和 对 图 像 进 行 分 类 等 方面 的 效果 越 来 越 好 。LeNet 是 用 
卷 积 层 和 池 化 层 交 替 堆 琶 ， 并 以 多 层 感知 机 收尾 而 构成 的 ， 如 图 4-3 所 示 。 











输入 层 (SD4 特征 映射 


(C1) 4 特征 映射 (S2) 6 特征 映射 














图 4-3 


如 前 所 述 , 每 一 层 都 和 其 他 层 存 在 部 分 连接 ， 而 多 层 感 知 机 是 全 连接 层 。 每 一 层 都 会 部 署 多 
个 特征 映射 (通道 )， 因 此 可 以 构造 更 复杂 的 滤波 需 集 。 稍 后 将 看 到 ， 在 一 层 中 使 用 多 个 通道 是 
在 许多 前 沿 案例 中 采用 的 一 种 强大 的 技术 。 

常用 最 大 池 化 层 对 输出 项 降 维 ,以 便 其 与 输入 项 相 匹 配 并 控制 输出 规模 。 如 何 实现 池 化 , 特 
别 是 如 何 设 定 卷 积 层 和 池 化 层 的 相对 位 置 , 是 结果 出 现 差异 的 关键 原因 。 通常 将 一 系列 运算 视 作 
一 层 ， 并 将 输出 传递 给 一 个 全 连接 层 ， 如 图 4-4 所 示 。 
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3x3 卷 积 5x5 最 大 池 化 3x3 最 大 池 化 
EE 
图 4-4 


虽然 该 网 络 架 构 无 法 解决 实际 问题 , 但 有 助 于 说 明 用 组 件 构建 网 络 存在 多 种 方式 。 网 络 的 构 
建 方法 、 架 构 的 复杂 程度 ， 都 应 与 网 络 要 解决 的 问题 有 关 。 不 同 问题 的 解决 方法 可 能 天 差 地 别 。 


在 接 下 来 要 研究 的 LeNet 实现 案例 中 , 每 层 都 包含 多 个 卷 积 层 ,每 个 卷 积 层 后 跟着 一 个 最 大 


池 化 层 ， 如 图 4-5 所 示 。 


pF 
2x2 最 大 池 化 2x2 最 大 池 化 2x2 最 大 池 化 
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可 以 用 该 架构 简单 、 快 速 地 浏览 一 些 初始 用 例 , 但 整体 表现 并 不 像 后 面 要 讲 到 的 先进 应 用 那 
么 理想 。 因 此 ， 人 们 设计 了 许多 应 用 广泛 的 学 习 架 构 ， 以 解决 各 种 环 手 的 问题 ， 其 拓扑 结构 值得 
研究。 谷歌 的 mception 网 络 是 最 知名 的 卷 积 架构 之 一 ， 现 在 党 称 作 GoogLeNet。 

GoogLeNet 的 设计 初衷 是 为 了 解决 计算 机 视觉 问题 ,包括 网 络 图 像 数 据 ， 即 现实 中 拍摄 的 图 
片 ， 其 姿态 、 灯 光 、 遮 挡 和 厅 波 存在 巨大 差异 。GoogLeNet 在 2014 年 的 ImageNet 大 赛 中 大 放 异 
彩 ， 在 测试 数据 集 上 的 误差 率 只 有 6.7%。ImageNet 图 像 尺 寸 小 、 内 容 差 异 大 ， 涉 及 种 类 多 。 这 
些 种 类 可 能 看 起 来 非常 类 似 ( 比如 树 的 不 同 种 类 )， 而 网 络 架 构 必 须 成 功 状 别 它们 ， 例 如 图 14-6 
所 示 的 ImageNet 图 像 。 








图 4-6 


针对 该 需求 ,GoogLeNet 架 构 在 InageNet 中 取得 了 优异 成 绩 ,并 在 许多 关键 方面 超越 了 LeNet 
模型 。GoogLeNet 基本 层 的 设计 称 作 Inception 模块 ， 由 以 下 几 部 分 组 成 ( 见 图 4-7 )。 

















3x3 最 大 池 化 























图 4-7 
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其 中 1x1 的 卷 积 层 后 跟着 修正 线性 单元 ( rectified linear units ，ReLU )。 该 方法 常用 于 语音 建 
模 和 音频 建 模 ， 因 为 ReLU 可 以 高 效 地 训练 深度 模型 ， 无须 预 训练 ， 也 没有 其 他 激活 函数 存在 的 
梯度 消失 问题 。 关 于 ReLU 的 更 多 信息 , 参见 4.2 节 。DepthConcat 元 素 提供 了 连接 函数 ,可 以 巩 
固 多 个 单元 的 输出 ， 并 大 大 方 约 训练 时 间 。 


GoogLeNet 将 这 样 的 层 连接 起 来 , 构造 出 完整 的 网 络 。Inception 模块 在 GoogLeNet 网 络 中 多 
处 (9 处 ) 存在 。 这 也 表明 ， 网 中 网 ( network in network，NIN， 由 链接 网 络 模 块 构成 的 深度 架 
构 ) 方法 将 一 直 是 深度 学 习 领 域 的 有 力 竞 争 者 。4.2 节 提 到 的 一 篇 文章 介绍 了 GoogLeNet 并 阐述 
了 Inception 模块 是 如 何 集 成 到 网 络 中 的 。 


除了 采用 Inception 模块 的 堆 县 技巧 外 , GoogLeNet 还 有 其 他 可 称赞 的 地 方 。 前 几 层 往往 比较 
简单 ， 首先 使 用 单 通道 卷 积 层 和 最 大 池 化 层 。 另 外 ，GoogLeNet 还 在 多 处 引入 了 主体 架构 上 的 分 
支 一 一 平均 池 化 层 ， 其 输出 项 传递 至 附加 的 softmax 分 类 器 。 这 些 分 类 器 旨 在 改善 传递 回 网 络 内 
低层 的 梯度 信号 ， 提 高 网 络 上 层 和 中 层 的 性 能 。GoogLeNet 并 没有 在 网 络 的 最 后 一 层 执 行 大 规模 
但 可 能 较 模 糊 的 反 向 传播 ， 而 是 有 一 些 中 间 更 新 源 。 

该 实现 表明 ，GoogLeNet 和 其 他 顶级 CNN 之 所 以 成 功 ， 主 要 是 因为 它们 使 用 了 本 章 所 讲 的 
高 可 用 组 件 并 进行 了 有 效 的 配置 。 介绍 过 了 卷 积 网 络 的 组 件 ， 以 及 它们 如 何 构 成 先进 的 网 络 ， 下 
面 用 这 些 技术 解决 具体 问题 。 




























































































4.1.2 应 用 CNN 


下 面 用 CNN 处 理 图 像 数 据 。 前 几 章 处 理 过 的 图 像 数 据 ( 包括 MNIST 数字 数据 集 ) 就 是 非常 
有 用 的 训练 数据 集 ( 包含 了 许多 有 价值 的 现实 应 用 ， 比 如 自动 审阅 )。 然 而 这 些 数据 与 其 他 所 有 
图 像 数据 或 视频 数据 不 同 的 一 点 是 ， 大 部 分 可 视 数 据 都 含有 大 量 噪声 。 


问题 变量 包括 姿态 、 灯 光 、 遮 挡 和 杂 波 ,它们 可 以 独立 表达 , 也 可 以 以 多 种 形式 结合 起 来 表 
达 。 这 意味 着 ,不 受 数据 噪声 影响 的 函数 很 难 构造 ， 而 且 这 样 的 函数 通常 是 复杂 的 非 线性 函数 。 
第 7 章 将 探讨 “白化 ”等 技术 如 何 应 对 这 些 挑战 , 但 仅 依靠 这 些 技术 无 法 得 到 理想 的 分 类 结果 ( 至 
少 在 没有 投入 大 量 时 间 的 情况 下 )。 截 至 目前 ， 处 理 图 像 数据 噪声 的 最 有 效 方法 是 深 而 不 广 的 架 
构 〈 高 维 层 很 少 的 神经 网 络 极 易 受到 过 度 拟 合 和 泛 化 问题 的 影响 )， 这 在 许多 情景 中 出 现 过 了 。 

至 此 可 归纳 出 深度 架构 的 原理 : 深度 架构 的 连续 层 会 使 用 上 一 层 的 推理 和 计算 过 程 。 因 此 ， 
深度 架构 可 以 构建 一 种 数据 表示 , 这 种 表示 无 须 在 任何 单独 的 层 上 进行 大 量 反复 计算 ,就 能 改善 
连续 层 。 这 能 在 相对 较 短 的 时 间 内 让 模型 对 大 规模 含 噪 败 像 数据 分 类 达到 较 高 的 准确 度 ， 而 无 须 
进行 大 
4 

































































量 特征 工程 。 








介绍 过 对 图 像 数 据 建 模 的 挑战 以 及 深度 架构 的 优势 后 ,下面 对 一 个 实际 分 类 问题 应 用 CNN。 
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如 前 所 示 , 首先 通过 一 个 小 例子 进一步 说 明 深 度 网 络 架 构 。 本 章 以 一 个 经 典 的 图 像 处 理 问 题 
( CIFAR-10 ) 为 例 ， 该 数据 集 包 含 60 000 幅 32 像素 x32 像素 的 彩色 图 像 。 这 些 图 像 可 分 为 10 类 ， 
每 类 包含 6000 幅 图 像 。 数 据 已 分 为 $ 个 训练 集 和 1 个 测试 集 。 每 个 子 集 的 类 别 和 对 应 的 一 些 图 
像 如 图 4-8 所 示 。 
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图 4-8 











尽管 从 某 种 程度 上 讲 ， 业 内 已 经 开始 处 理 其 他 数据 集 ( 比如 ImageNet ) 了 , 但 CIFAR-10 一 
直 是 图 像 分 类 难以 跨越 的 障碍 。 许 多 数据 科学 家 尝试 构造 架构 对 该 数据 集 进 行 分 类 , 以 期 精度 达 
到 人 类 水 平 (人 类 对 此 的 误差 率 约 为 6% )。 


2014 年 11 月 ，Kaggle 举办 了 一 场 比赛 ， 目 标 是 尽 可 能 准确 地 对 CIFAR-10 进行 分 类 。 获 胜 
者 的 分 类 精度 达到 了 95.55%， 他 们 使 用 的 正 是 卷 积 网 络 和 网 中 网 。 第 8 章 将 讨论 如 何 对 该 数据 
集 进 行 分 类 ， 以 及 可 用 的 先进 技术 。 下 面 首先 尝试 用 卷 积 网 络 来 进行 分 类 。 
口 对 图 像 应 用 滤波 器 ， 并 查看 结果 。 
口 查看 CNN 创建 的 权重 。 
口 探究 网 络 有 效 和 无 效 的 区 别 。 
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本 章 将 采用 一 种 新 方法 ， 其 重要 性 一 用 便 知 。 如 前 所 述 ,， 为 解决 不 同 问题 而 开发 的 深层 网 络 
架构 在 结构 上 会 有 所 不 同 。 

重要 的 是 针对 特定 问题 构造 网 络 架 构 ， 以 便 调整 网 络 来 适应 一 系列 实际 问题 。 为 此 ,要 将 网 
络 组 件 模 块 化 , 便于 以 各 种 方式 重组 组 件 来 快速 构建 网 络 。 前 面 介绍 了 模块 化 的 影响 ， 如 何 将 其 
应 用 于 网 络 值得 探讨 。 

前 面 讲 过 ， 卷 积 网 络 对 庞大 且 多 样 、 包 含 成 千 上 万 幅 图 像 的 数据 集 的 分 类 功能 尤其 强大 。 
此 ,不 妨 尝试 用 CNN 对 CIFAR-10 进行 分 类 。 

在 建立 卷 积 网 络 的 过 程 中 ,首先 要 定义 一 个 可 用 类 ,并 初始 化 相关 网 络 参数 ( 尤其 是 权重 和 
偏差 )。 前 面 讲 过 这 种 方法 。 


class LeNetConvPoolLayer (object): 








def __init_ _(self, rng, input, filter_shape, image_shape, 
poolsize=(2, 2)): 


assert image_shapel[1] == filter_shapel[1] 
self.input = input 


fan_in = numpy.prod(filter_ shapel[l:]) 
fan out = (filter_ shape[0] * numpy .prod(filter_ shape[2:]) numpy.prod(poolsize)) 


W_bound = numpy.sqrt(6. / (fan_in + fan_out)) 
self.W = theano.shared( 
numpy .asarray ( 
rng.uniform(low=-W_bound, high=W_boungd, 
size=filter_shape), 
dtype=theano.config.floatx 
borrow=True 


) 


创建 偏差 变量 前 ， 先 查看 一 下 已 有 元 素 。LeNetConvPoolLayer 类 用 于 按照 LeNet 层 结构 
实现 完整 的 卷 积 层 和 池 化 层 。 该 类 包含 多 个 初始 参数 。 


前 面 介 绍 过 rng 参数 了 ， 它 可 以 将 权重 初始 化 为 随机 值 。 前 面 还 提 到 了 input 参数 。 在 大 
多 数 情 况 下 ， 图 像 输 入 多 采用 图 像 符 号 张 量 ( symbolic image tensor ) 的 形式 。 图 像 输 入 大 小 由 
image_shape 参数 设 定 ， 这 是 一 个 元 组 或 长 度 为 4 的 列表 ， 用 于 描述 输入 的 维度 。 在 经 过 连续 
层 时 ， 该 参数 会 逐渐 减 小 。 作 为 元 组 时 ， 该 参数 只 声明 输入 的 高 度 和 宽度 ; 作为 长 度 为 4 的 列表 
时 ， 参 数 的 含义 依次 如 下 。 


口 子 集 大 小 

口 输入 特征 映射 的 数量 
口 输入 图 像 的 高 度 

口 输入 图 像 的 宽度 
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image_shape 能 声明 输入 的 大 小 ，filter_shape 能 声明 滤波 如 的 维度 。 当 后 者 是 长 度 为 


4 的 列表 时 ， 其 元 素 的 含义 依次 如 下 。 


子 


> 


口 应 用 的 滤波 器 〈 通 道 ) 数量 
口 输入 特征 映射 的 数量 

口 滤波 器 的 高 度 

口 滤波 需 的 宽度 


高 度 和 宽度 的 输入 可 以 不 需要 任何 额外 参数 。 最 后 一 个 poolsize 参数 描述 的 是 缩小 规模 因 
表现 为 长 度 为 2 的 列表 ， 第 一 个 元 素 代 表 行 数 ， 第 二 个 元 素 代 表 列 数 。 


定义 好 这 些 值 后 ， 就 可 以 用 它们 定义 LeNetconvPoolLayer 类 了 。 定义 fan_in 时 ， 将 每 











个 隐藏 单元 的 输入 项 设 为 输入 特征 映射 数量 的 倍数 一 一 滤波 器 的 高 度 和 宽度 。 类 似 地 ,可 以 简单 
定义 fan_out， 这 是 一 个 梯度 值 ， 基 于 输出 特征 映射 的 倍数 〈 即 特征 的 高 度 和 宽度 除 以 池 化 规 
模 的 值 ) 计算 所 得 。 






































然后 将 偏差 定义 为 一 组 一 维 张 量 ， 每 个 偏差 对 应 一 个 输出 特征 映射 。 


b_values = numpy.zeros( (filter_shape[0],，)， 
dtype=theano.config.floatx) 
self.b = theano.shared(value=b_values, borrow=True) 





CONvV out sO conv2d.( 
input=input, 
filters=self.W, 
filter_ shape=filter_shape, 
image_shape=image_shape 


) 


调用 该 函数 就 能 定义 一 个 使 用 先前 定义 的 滤波 器 的 卷 积 运算 。 有 时 为 了 高 效应 用 一 个 函数 ， 








需要 掌握 许多 理论 知识 。 下 面 用 max_pool_2a 构建 一 个 相似 的 池 化 运算 。 


pooled_out = downsample.max_pool 2d( 
input=conv_out, 
ds=poolsize, 
ignore_border=True 


self.output = T.tanh(pooled out + self.b.dimshuffle('x', 0, 'x', 'x')) 
self.params = [self.W, self.b] 


self.input = input 


接着 将 偏 项 重 塑 成 大 小 为 (1，n_filters，1，1) 的 张 量 ,， 然 后 添加 偏 置 。 这 样 可 以 使 偏 











影响 每 个 特征 映射 和 小 批 次 。 至 此 构建 基础 CNN 的 所 有 组 件 就 准备 好 了 ， 下 面 构 建 CNN。 





AS ci 
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pe = i ehtb: di lp. 
y = T.ivector('y') 








该 过 程 非常 简单 ， 按 顺序 构建 层 ， 将 参数 传 至 先前 声明 的 类 。 首 先 构建 第 一 层 。 


layer0_input = x.reshape((batch size, 1, 32, 32)) 
layer0 = LeNetConvPoolLayer\( 
rng, 
input=layer0_input, 
image_shape= (batch_ size, 1, 32, 32) 
filter_shape=(nkerns[0], 1, 5, 5), 


poolsize=(2, 2) 


) 


首先 重 塑 输入 ， 并 传人 所 有 选 定 的 小 批 次 。CIFAR-10 图 像 的 维 


度 为 32x32， 即 高 度 和 宽度 








的 输入 大 小 也 是 32x32。 过 滤 过 程 会 将 该 输入 的 大 小 在 每 个 维度 上 减 至 28 ( 32-5+1 )。 池 化 则 将 
该 输入 在 每 个 维度 上 减 半 ， 从 而 构建 一 个 大 小 为 (batch_size，nkerns[0]，14，14) 的 输 























出 层 。 

这 是 完整 的 第 一 层 。 下 面 用 相同 的 代码 构建 第 二 层 。 

layerl = LeNetConvPoolLayer\( 
rng, 
input=layer0.output, 
image_shape=(batch_ size, nkerns[0], 14, 14) 
filter_shape=(nkerns[1], nkerns[0], 5, 5), 
poolsize=(2, 2) 

) 

参照 上 一 层 ， 这 一 层 的 输出 尺寸 为 (batch_size, nkerns[1] 


下 面 将 该 输出 传 至 下 一 个 全 连接 sigmoid 层 。 首 先 需 要 将 输入 维度 平 
网 络 的 值 ， 这 一 层 的 输入 应 是 形状 为 (500，1250) 的 矩阵 。 因 此 设 1 


layerl.output.flatten(2) 








layer2_input 


layer2 
rng, 
input=layer2_input, 
n, in=nkeérns[1] * 5 * 5 
ni Out=500; 
activation=T.tanh 


HiddenLayer( 


) 
添加 最 后 的 逻辑 回归 层 ， 并 计算 全 连接 sigmoid 层 的 值 ， 进 一 步 
执行 以 下 代码 。 


T.matrix(CIFAR-10_train) 
T.ivector (CIFAR-10_test) 





x 
Y 


Chapter_4/convolutional mlp.py 


，5，5) 。 至 此 一 切 顺 利 。 
铺 成 二 维 ， 根 据 目 前 传 至 该 


一 个 恰当 的 layer2。 


善 了 网 络 。 


2 
I 
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结果 如 下 所 示 。 
Optimization complete. 


Best validation score of 0.885725 % obtained at iteration 17400, with 
test performance 0.902508 % 


The code for file convolutional mlp.py ran for 26.50m 
验证 精度 相当 不 错 。 但 未 达到 人 类 水 平 (94% )， 同 时 也 不 是 CNN 所 能 取得 的 最 好 成 绩 。 


例如 4.2 节 要 讲 的 基于 Torch 并 结合 dropout 技术 (第 3 章 介 绍 过 ) 实现 的 CNN， 以 及 用 于 
降低 训练 过 程 中 的 协 变量 漂移 的 批 归 一 化 (batch normalization ) 技术 ， 验 证 精度 可 达 92.45%。 


但 88.57% 的 验证 精度 与 之 没什么 两 样 , 该 实践 相当 于 初步 尝试 用 高 效 网 络 架构 解决 CIFAR-10 
问题 。 更 重要 的 是 ， 本 章 教授 了 很 多 有 关 如 何 高 效 配 置 和 训练 CNN 的 知识 。 


4.2 ”扩展 阅读 


近来 ， 人 们 对 卷 积 网 络 的 兴趣 愈 发 高 涨 ， 相 关 资 料 也 日 益 丰 富 。Andrej Karpathy 课程 的 课堂 
笔记 值得 阅读 : http://cs231n.github.io/convolutional-networks/。 


如 果 对 某 个 最 佳 实现 的 细节 感 兴趣 ， 可 继续 探究 如 下 网 络 。 


口 谷歌 的 GoogLeNet。 

口 谷歌 Deepmind 的 Go-playing 项 目 。 

口 AlphaGo。 

口 Facebook 的 人 脸 识别 网 络 架构 DeepFace。 

口 ImageNet LSVRC-2010 大 赛 获胜 作品 ( http:/www.cs.toronto.edu/~fritz/absps/imagenet.pdf )， 
由 Krizhevsky 、Sutskever 和 Hinton 开发 。 

D Sergey Zagoruyko 在 Torch 上 用 批 归 一 化 实现 的 卷 积 网 络 ( http://torch.ch/blog/2015/07/30/ 
cifar.html )。 
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本 章 内 容 丰 富 。 首 先 介绍 了 一 种 新 的 神经 网 络 一 一 CNN, 讲解 了 其 背后 的 理论 和 常用 的 网 络 
架构 , 探讨 了 由 谷歌 和 百度 等 企业 提出 的 一 些 先 进 的 网 络 设计 原则 , 还 介绍 了 拓扑 结构 以 及 网 络 
的 运行 原理 。 

然后 构建 了 CNN， 并 将 该 网 络 应 用 于 CIFAR-10 数据 集 。 我 们 用 模块 化 的 CNN 代码 构建 了 


功能 架构 ， 并 在 对 10 类 图 像 数 据 的 分 类 中 达到 了 理想 精度 。 虽 然 精 度 仍 与 人 类 水 平 存在 差距 ， 
但 该 差距 已 在 慢 慢 缩小 ! 第 8 章 将 继续 探讨 本 章 所 讲 的 内 容 ， 并 在 更 高 层次 应 用 这 些 技术 。 
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5.1 简介 


前 几 章 用 先进 技术 解决 了 一 系列 数据 问题 。 每 个 案例 都 应 用 技术 操作 数据 集 并 取得 了 不 错 的 


但 这 些 问 题 在 很 多 方面 都 太 过 简单 了 。 数据 大 都 取 自 权威 来 源 , 省 去 了 大 量 准备 工作 。 但 在 
实际 中 ， 这 样 的 数据 集 很 少 ( 可 以 自己 指定 的 情况 除外 )。 特 别 是 现实 中 自 带 可 用 类 标签 的 数据 
集 少 之 又 少 。 如 果 数 据 集中 的 标签 不 足 , 就 无 法 构造 出 能 精准 预测 验证 集 或 测试 集 标签 的 分 类 器 。 
此 时 应 该 怎么 做 呢 ? 


通常 会 想到 手动 给 数据 贴标签 , 但 这 不 仅 耗 时 ,还 会 产生 一 些 特 定 的 人 工 误差 ( 这 在 高 维 数 
据 集中 很 常见 ， 因 为 人 工 观测 无 法 像 模 型 计算 那样 精准 地 识别 类 边界 )。 


一 个 比较 新 且 有 趣 的 备 选 方法 是 半 监 督学 习 。 可 以 用 该 方法 捕获 潜在 的 数据 分 布 状况 来 给 无 
标签 数据 添加 标签 。 半 监督 学 习 在 过 去 十 年 间 不 断 升 温 ， 因 为 用 它 能 节省 大 量 的 标注 时 间 ,“ 标 
注 ” 工 作 往 往 需 要 人 类 知识 或 专业 设备 。 在 自然 语言 解析 和 语言 信号 分 析 等 领域 , 这 项 技术 非常 
有 价值 ， 因 为 在 这 两 大 领域 进行 人 工 标注 都 非常 复杂 且 耗 时 。 

本 章 将 介绍 如 何 应 用 一 些 半 监督 学 习 技术 ， 其 中 包括 对 比 翡 观 最 大 似 然 估计 ( contrastive 
pessimistic likelihood estimation，CPLE )、 自 学 习 和 S3VM。 可 以 在 一 系列 复杂 问题 中 运用 这 些 技 
术 给 训练 数据 添加 标签 。 借 用 一 些 近期 在 scikit-learn 上 名 列 前 茅 的 Python 库 ， 将 半 监 督 技术 应 
用 于 多 个 实例 ( 包括 音频 信号 数据 )， 来 展现 半 监 督 技术 的 功能 和 限制 。 


就 此 开始 吧 ! 










































































5.2 何 为 半 监 督学 习 


构造 用 于 训练 的 标签 数据 的 成 本 是 机 融 学 习 中 的 一 项 固定 成 本 。 由 于 现实 情况 纷繁 复杂 , 通 
常 无 法 得 到 包含 类 标签 的 数据 集 ， 因 此 需要 运用 经 过 训练 的 分 类 技术 来 生成 类 标签 , 但 在 没有 标 
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签 训 练 数据 和 测试 数据 的 情况 下 无 法 训练 技术 。 如 前 所 述 , 可 以 选择 手动 或 通过 测试 给 数据 添加 
标签 ， 但 这 种 方法 的 时 间 成 本 、 金 钱 成 本 ( 尤其 对 医疗 测试 而 言 ) 都 过 于 高 昂 、 难 以 组 织 ， 而 且 
容易 出 错 〈 如 果 数 据 集 大 而 复杂 的 话 )。 半 监督 学 习 可 以 突破 此 困境 。 


半 监 督学 习 技术 同时 使 用 无 标签 数据 和 标签 数据 , 这 比 仅 使 用 无 标签 数据 或 标签 数据 的 学 习 
技术 要 好 很 多 。 除 了 监督 学 习 ( 用 标签 数据 ) 和 无 监督 学 习 ( 用 无 标签 数据 )， 还 有 其 他 一 些 学 
习 算 法 ， 包 括 半 监督 技术 、 转 导 推 理 技术 和 主动 学 习 技术 ， 等 等 。 


半 监 督 技术 会 预 留 一 部 分 测试 数据 ,不 用 于 训练 ， 而 用 于 后 期 测试 。 转 导 推 理 技术 能 为 无 标 
签 数据 生成 标签 ， 该 技术 可 能 不 包含 测试 过 程 ， 可 能 也 没有 可 用 的 标签 数据 。 


本 章 将 重点 介绍 几 种 半 监 督 技术 , 它们 以 常用 格式 提供 了 强大 的 数据 标注 功能 。 其 中 许多 技 
术 都 可 以 用 于 包装 常用 的 分 类 器 ， 比 如 线性 回归 分 类 器 或 支持 向 量 机 。 此 外 , 许多 技术 都 可 以 用 
scikit-learn 的 估计 器 运行 。 稍 后 先 用 线性 回归 分 类 器 测试 实例 ， 然 后 应 用 半 监 督 技术 处 理 过 的 支 
持 向 量 机 。 





























5.3 ” 半 监 督 算 法 实战 


前 面 简 单 介绍 了 半 监 督学 习 的 概念 、 用 途 ， 以 及 一 些 半 监督 算法 的 应 用 现状 ， 下面 介 绍 如 何 
高 效应 用 半 监 督 技 术 。 


5.3.1 自 训练 


自 训练 是 最 简单 的 、 最 快 的 半 监 督学 习 方 法 , 其 应 用 广泛 , 包括 自然 语言 处 理 和 计算 机 视觉 。 
实际 上 ， 自 训练 算法 既 能 产生 巨大 价值 ， 也 会 带 来 巨大 风险 。 


自 训 练 则 在 将 无 标签 实例 的 信息 与 标签 实例 的 信息 相 结 合 ， 以 迭代 确定 无 标签 实例 的 标签 
值 。 标 签 训练 集会 在 每 次 迭代 中 增 大 ， 直 到 整个 数据 集 都 添加 了 标签 。 


自 训 练 算法 通常 作为 封闭 絮 应 用 于 基础 模型 。 本 草 将 支持 向 量 机 作为 自 训 练 模型 的 基础 模 
型 。 自 训练 算法 非常 简单 ， ee. 较 少 ， 如 下 所 示 。 


(1) 用 一 系列 标签 数据 预测 无 标签 数据 ( 可 以 是 所 有 无 标签 数据 或 部 分 无 标签 数据 ) 的 标签 值 。 
(2) 计算 所 有 新 增 标 签 实例 的 置信 度 。 

(3) 从 新 增 标签 实例 中 挑选 几 个 实例 ， 用 于 下 次 迭代 。 

(4) 用 所 有 标签 实例 (包括 上 次 迭代 挑选 出 的 实例 ) 训练 模型 。 
(5) 重复 (1)~(4) 步 ， 直 到 模型 成 功 收敛。 


整个 过 程 如 图 5-1 所 示 。 
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结束 训练 前 ， 自 训练 模型 应 经 过 测试 和 验证 。 可 以 用 交叉 验证 , 或 者 使 用 其 他 特意 保留 的 标 
签 数据 。 


自 训练 非常 强大 , 并 且 能 够 节约 时 间 , 但 也 存在 风险 。 为 了 说 明 注意 事项 以 及 在 分 类 算法 中 
应 用 自 训练 的 方法 ， 下 面 详细 介绍 算法 的 运行 过 程 。 


本 次 实践 将 使 用 semisup-learn GitHub 仓库 的 代码 ,在 使 用 该 代码 前 ,需要 先 克 隆 相关 GitHub 
仓库 ， 相 关 指导 见 附录 A。 


1. 实现 自 训 练 


自 训 练 每 次 迭代 的 第 一 步 是 为 无 标签 实例 生成 标签 。 首 先 构 造 一 个 SelfLearningModel 
类 ,并 将 基于 监督 算法 的 基本 模型 (basemodel ) 和 人 迭代 限制 作为 参数 。 稍 后 会 讲 到 ， 迭 代 限 制 
可 以 额外 声明 或 指定 为 分 类 精度 ( 即 收敛 程度 ) 的 函数 。prob_threshola 参数 提供 接受 标签 
的 可 信 度 的 最 低 限 制 , 低 于 该 水 平 的 预 估 标 签 都 会 被 拒绝 。 除 了 硬 编码 闵 值 ， 后面 的 案例 还 涉及 
其 他 方法 。 


class SelfLearningModel (BaseEstimator): 























def __ init_ _(self, basemodel, max_iter = 200, prob threshold = 0.8): 
self.model = basemodel 
self.max_iter = max_iter 
self.prob_ threshold = prob_ threshold 


定义 好 selfLearningModel 类 的 外 层 后 ， 接 下 来 定义 用 于 半 监 督 模型 拟 合 处 理 的 函数 。 


def fit(self, xXx, y): 
unlabeledx = X[y==-1, :] 
labeledx = X[y!=-1, :] 

labeledy = yly!=-1] 





self.model.fit (labeledx, labeledy) 

unlabeledy = self.predict (unlabeledx) 
unlabeledprob = self.predict proba (unlabeledx) 
unlabeledy_old = [] 





二 三 0 


参数 x 是 输入 数据 矩阵 , 其 形状 等 于 [n_samples, n_features], 用 于 构建 [n_samples， 
n_features] 的 和 矩阵。 参数 y 是 标签 数组 , 无 标签 数据 点 在 y 中 标记 为 -1。 通过 对 x 进行 运算 ， 
即 在 x 中 选择 y 标签 为 -1 的 元 素 ， 可 以 构建 unlabeledx 和 labeleqx 参数 。labeledy 二 
y 上 进行 类 似 的 选择 。( 通常 我 们 对 y 中 的 无 标签 样本 不 感 兴趣 ， 但 需要 它们 的 标签 来 进行 分 类 


标签 预测 的 过 程 首先 要 用 到 sklearn 封装 的 预测 操作 。unlapeleqy 参数 是 用 sklearn 的 
predict 方法 生成 的 , predict_proba 方法 则 用 于 计算 每 个 预测 标签 的 概率 。 这 些 概 率 值 存 储 
在 unlabeledprob 中 。 
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scikit-learn 的 predict 和 predict_propba 方法 能 够 分 别 预测 类 标签 和 类 标 
签 的 准确 率 。 因 为 多 个 半 监 督 算 法 会 应 用 这 两 种 方法 ， 所 以 首先 解释 其 原理 。 
fF predict 方法 通过 一 系列 二 元 分 类 器 ( 即 只 区 分 两 个 类 别 的 分 类 器 ) 生成 输 
入 数据 的 类 别 预测 。 带 有 nn 个 类 别 的 完整 模型 包含 多 个 二 元 分 类 器 ,具体 如 以 下 
公式 所 示 。 
n*(n—1) 
多 


为 了 对 给 定 实例 进行 预测 ， 所 有 得 分 超过 0 器 都 会 
类 标签 投 上 一 票 ， 票数 最 多 ( 而 不 是 分 类 器 总 得 分 最 高 ) 的 类 

别 。 这 是 一 种 常用 的 方法 ， 称 作 “ 一 对 一 预测 ”。 
同时 ，predict_proba 通过 调用 Platt 校准 ( Platt calibration ) 运行 。 该 技 
FF ” 术 可 将 分 类 模型 的 输出 转换 成 类 别 的 概率 分 布 。 首 先 训 练 基础 模型 ， 根据 拟 合 
的 回归 模型 计算 分 类 器 的 评分 。 
1 


P(y|X)= 
(1+exp(4* f(X)+2B)) 
然后 用 最 大 似 然 方法 优化 该 模型 (通过 调整 参数 4 和 B)。 在 自 训 练 模型 的 
案例 中 ，predict_proba 根据 拟 合 的 回归 模型 计算 分 类 器 的 评分 ， 从 而 得 到 每 
个 类 标签 的 概率 。 这 非常 有 用 ! 


接 下 来 需要 一 个 循环 来 进行 迭代 。 以 下 代码 使 用 了 一 个 while 循环 ， 该 循环 执行 直到 
unlabeledqy old (unlabeledy 的 副本 ) 内 无 实例 或 达到 最 大 循环 次 数 。 每 次 迭代 时 ， 尝 试 对 每 
个 没有 标签 、 概 率 超过 概率 阔 值 (prob_threshola ) 的 实例 添加 标签 。 


while (len(unlabeledqy oldq) == 0 or numpy.any (unlabeledy!=unlabeledy_o1d)) 
and i < self.max_ iter: 
unlabeledy_old = numpy.copy (unlabeledy) 
uidx = numpy .where( (unlabeledprob[:, 0] > self.prob threshold) | 
(unlabeledprob[:, 1] > self.prob threshold))[0] 


然后 ，self .model .fit 方 法 用 模型 拟 合 无 标签 数据 , 后 者 将 以 矩阵 形式 存储 ,和 矩阵 大 小 为 
[In_samples，n_features] (如 前 所 述 )。 该 矩阵 会 (通过 vstack 和 hstack 函 数 ) 不 断 补充 
无 标签 数据 "。 


self.model.fit (numpy.vstack( (labeledx, unlabeledx[uidx, :])), 
numpy .hstack( (labeledy, unlabeledy_old[uidx]))) 


最 后 预测 标签 ， 以 及 标签 的 概率 。 


























bl 











Q@ 即 预测 结果 通过 概率 阔 值 的 无 标签 数据 。 一 一 译 者 注 








5.3 ” 半 监 督 算 法 实战 77 





unlabeledy = self.predict (unlabeledx) 

unlabeledprob = self.predict proba (unlabeledx) 

i += 1 

下 次 迭代 时 , 模型 将 执行 相同 的 处 理 , 将 概率 预测 超过 阔 值 的 新 增 标签 数据 作为 model . fit 
步骤 中 的 数据 集 的 一 部 分 。 


如 果 模 型 还 未 包含 能 产生 标签 预测 的 分 类 方法 ( 比如 sklearn 的 支持 向 量 机 实现 中 的 
predict_proba 方法 ), 可 以 引用 一 个 。 以 下 代码 查找 predict_proba 方法 , 并 在 找 不 到 该 方 
法 时 引用 基于 Platt scaling 的 标签 生成 函数 。 


if not getattr(self.model, "predict_ proba", None): 
self.plattlr = LR() 
preds = self.model .predict (labeledx) 
self.plattlr.fit( preds.reshape( -1, 1 ), labeledy ) 




















return self 





def predict_ proba(self, XxX): 
if getattr(self.model, "predict proba", None): 
return self.model.predict_proba (XxX) 
else: 
preds = self.model.predict (XxX) 
return self.plattlr.predict_ proba(preds.reshape( -1, 1 )) 


准备 就 绪 后 ， 就 可 以 开始 应 用 自己 的 自 训练 架构 了 。 先 找 个 数据 集 试 试 吧 ! 


以 一 个 简单 的 线性 回归 分 类 器 为 基础 模型 (basemodel ), 其 带 有 的 随机 梯度 下 降 ( stochastic 
gradient descent, SGD ) 为 学 习 算法 ,输入 数据 集 为 statlog 的 heart 数据 集 , 取 自 www.mldata.org， 
可 从 本 章 附带 的 GitHub 仓库 下 载 。 


heart 数据 集 是 一 个 二 分 类 数据 集 , 根据 有 无 心脏 病 进行 分 类 。 数 据 集 包 含 270 个 实例 ， 
个 实例 有 13 个 特征 上 且 没 有 缺失 值 。 该 数据 没有 标签 ， 其 中 许多 特征 变量 的 标记 成 本 很 高 而 且 需 
要 经 过 很 多 复杂 测试 。 具 体 变量 如 下 所 示 。 















































口 sex 

D chest pain type (4 values) 

D resting blood pressure 

口 serum cholestoral in mg/dl 

口 fasting blood sugar > 120 mg/dl 


口 


resting electrocardiographic results (values 0,1,2) 


D maximum heart rate achieved 





D exercise induced angina 
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DQ 10. oldpeak = ST depression induced by exercise relative to rest 

D the slope of the peak exercise ST segment 

D number of major vessels (0-3) colored by flourosopy 

DQ thal: 3 = normal; 6 = fixed defect; 7 = reversable defect 

下 面 分 析 Heart 数据 集 。 首 先 加 载 数据 ， 然 后 用 模型 进行 拟 合 。 

heart = fetch mldata("heart") 

xX = heart.data 

ytrue = np.copy (heart.target) 

ytrue[lytrue==-1]=0 

labeled N = 2 

ys = np.array ([-l]*len(ytrue)) # -1 denotes unlabeled point 

random_ labeled points = random.samplel( 
np.where(ytrue == 0) [0], labeled N/2)+\random.sample(np.where(ytrue == 1)[0], 
labeled_N/2) 

ys[random_ labeled points] = ytrue[random labeled points] 

basemodel = SGDClassifier(loss=']l0og', penalty='11') 

basemodel .fit (X[random labeled points, :], ysl[lrandom labeled points]) 


print "supervised log.reg. score", basemodel.score(XxX, ytrue) 





ssmodel = SelfLearningModel (basemodel) 





ssmodel.fit (XxX, ys) 
print "self-learning log.reg. score'", ssmodel.score(XxX, ytrue) 
结果 中 规 中 甜 。 


Self-learning log.reg. score 0.470347 


多 次 尝试 的 输出 质量 波动 极 大 ( 见 图 5-2 )。 





30 次 尝试 后 自 训练 模型 得 分 箱 形 图 

















图 5-2 
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鉴于 这 是 针对 现实 中 的 无 标签 数据 进行 分 类 精度 评分 ， 这 个 结果 并 不 太 粮 ， 但 也 不 够 理想 ， 
因为 仍 有 一 多 半 的 实例 出 现 了 分 类 错误 。 


该 问题 需要 深入 探究 , 因为 现在 仍 不 清楚 哪里 出 了 问题 或 者 应 该 如 何 改进 结果 。 下面 回 归 到 
自 训 练 的 理论 ， 了 解 如 何 诊断 并 改进 实现 。 


2. 改善 自 训练 实现 


前 面 介绍 了 自 训练 算法 , 并 尝试 了 其 实现 。 然 而 第 一 次 试验 的 成 绩 仍 有 待 提高 ,精度 和 结 
的 波动 性 都 存在 问题 ， 但 足 已 表明 自 训 练 具有 潜力 。 


自 训练 是 个 很 脆弱 的 过 程 。 如 果 算 法 的 某 个 元 素 配置 不 当 或 输入 数据 含 杂 质 , 迭代 过 程 就 很 
可 能 一 而 再 、 再 而 三 地 出 错 ,不 断 将 标签 错误 的 数据 引入 下 一 个 添加 标签 的 步骤 中 。 因 为 自 训 练 
算法 会 迭代 地 自 反 馈 ， 所 以 出 现 杂 质 较 多 的 输入 和 输出 是 非常 严重 的 问题 。 


一 些 常见 风险 值得 一 提 。 在 一 些 情况 下 , 标签 数据 可 能 并 不 会 添加 更 多 有 用 信息 。 这 种 情况 
在 前 几 次 迭代 中 很 常见 , 也 很 好 懂 。 通 常 最 容易 添加 标签 的 无 标签 数据 是 与 已 有 标签 数据 最 为 相 
似 的 那些 数据 。 然 而 ， 因 为 给 这 些 实例 生成 高 概率 标签 很 容易 ， 所 以 这 样 做 并 不 一 定 能 降低 接 下 
来 在 迭代 中 添加 标签 的 难度 。 


问题 是 , 添加 的 实例 有 时 对 分 类 没有 实际 影响 ， 而 分 类 精度 却 整 体 下 降 了 。 更 糟 的 是 , 添加 
与 现 有 实例 各 方面 相似 的 实例 ,以 便 其 易于 添加 标签 ,这 其 实 会 误导 分 类 器 的 决策 边界 ,可 能 会 
使 错误 分 类 数 增多 。 


有 时 很 难 判断 自 训练 模型 中 的 错误 。 如 前 所 示 , 恰当 地 绘图 有 助 于 我 们 掌握 情况 。 由 于 这 种 
误差 通常 只 在 前 几 次 迭代 中 出 现 , 只 要 在 标签 预测 循环 中 加 入 一 个 代表 当前 分 类 精度 的 变量 , 就 
能 得 知 早期 精度 随 迭 代 的 变化 了 。 


确定 问题 后 ， 有 几 个 可 行 的 解决 方案 。 如 果 有 足够 的 标签 数据 ,可 以 用 一 个 更 多 样 化 的 标签 
数据 集 来 开始 该 过 程 。 


自 训练 模型 很 容易 出 现 过度 拟 合 , 为 了 应 对 这 种 风险 ,必须 保留 一 些 数据 用 于 后 续 验 证 。 另 
一 种 做 法 是 用 数据 集 的 多 个 子 集 来 训练 多 个 自 训 练 模型 实例 。 这 样 经 过 多 次 尝试 后 , 就 能 更 加 了 
解 输入 数据 对 自 训 练 模型 性 能 的 影响 。 

第 8 童 将 介绍 一 些 集成 方法 ,以 便 用 多 个 自 训 练 模型 共同 生成 预测 。 使 用 集成 方法 时 ,其 至 
可 以 考虑 同时 应 用 多 种 采样 技术 。 

如 果 不 想 从 数量 上 下 手 , 可 以 考虑 改进 质量 。 方法 之 一 是 选择 构建 多 样 性 适当 的 标签 数据 子 
集 。 开始 自 训练 的 标签 实例 没有 最 小 数量 等 硬性 限制 。 如 果 想 从 一 个 类 中 只 有 一 个 标签 实例 开始 
( 像 上 个 训练 案例 那样 ), 很 快 就 会 发 现 , 更 多 的 标签 数据 有 利于 训练 更 多 样 化 、 重 受 性 更 强 的 类 。 
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自 训 练 模型 容易 犯 的 男 一 类 错误 是 偏差 选择 (biased selection )。 本 来 设想 每 次 迭代 的 数据 选 











差 只 会 出 现 一 点 偏差 ( 即 稍 微 偏向 其 中 一 类 )， 但 事实 证 明 并 非 如 此 。 许 多 因素 都 会 影响 偏 
关 洗 择 的 可 和 性 ， 罪 魁 祸首 是 对 某 一 类 的 不 合 比例 抽样 。 


择 最 差 只 会 ! 














如 果 整 个 数据 集 或 使 用 的 标签 子 集 偏向 某 一 类 ， 自 训练 分 类 器 过 度 拟 合 的 风险 就 会 增加 。 当 














实例 传 到 下 一 次 迭代 , 但 其 多 样 性 不 足以 解决 问题 时 , 会 使 得 问题 更 加 复杂 ， 自 训练 算法 也 会 随 
之 建立 错误 的 决策 边界 ， 从 而 导致 对 数据 子 集 过 度 拟 合 。 各 类 的 实例 数量 不 均 是 问题 关键 , 诊断 
与 选择 偏差 相关 的 问题 也 是 识别 过 度 拟 合 的 常用 方法 。 











检验 过 度 拟 合 的 常用 方法 值得 详 述 ， 因 为 这 种 技术 (通常 称 作 “验证 技术 ”) 
颇具 价值 , 验证 技术 的 基本 概念 是 使 用 两 个 数据 集 : 一 个 用 于 构建 模型 ， 另 一 个 
用 于 测试 模型 。 

最 有 效 的 验证 技术 是 独立 验证 集 检验 ， 这 是 判断 预测 结果 准确 性 的 最 简 形 
式 ， 但 显然 不 是 一 直 (或 经 常 ) 能 做 到 的 。 

因为 可 能 没有 单独 的 验证 集 , 所 以 最 好 保留 样本 的 一 个 子 集 。 这 种 方法 称 作 

“样本 分 割 ”, 是 现代 验证 技术 的 基础 。 机 器 学 习 实 现 大 都 包括 训练 集 、 测 试 集 
和 验证 集 ， 属 于 多 层 验 证 方法 。 

第 三 种 也 是 最 为 关键 的 一 种 验证 方法 是 重 采 样 , 即 迭代 地 用 数据 子 集 来 验证 
数据 集 。 第 1 章 就 使 用 过 vV 重 交叉 验证 ,而 交叉 验证 可 能 是 实践 中 最 佳 的 重 采 样 
方法 。 

除了 可 用 的 技术 , 还 要 保证 对 数据 进行 有 效 建 模 所 需 的 样本 量 。 这 没有 普 适 
原则 ， 但 可 参考 以 下 经 验 法 则 。 

如 果 需 要 用 m 个 点 来 确定 单 变 量 回 归 线 ， A 定 精 度 
mn 个 观测 值 ， 甚 至 n/mn 个 ,才能 恰当 地 描绘 nn 个 变量 的 回归 郊 
其 进行 评估 。 


， 那 么 至 少 需要 
数 的 特性 ， 并 对 





请 注意 ， 





对 该 问题 的 推荐 解决 方案 ( 重 采 样 、 样 本 分 割 以 及 交叉 验证 及 其 他 验证 技术 ) 和 前 














一 个 有 些 区 别 。 也 就 是 说 ,过 度 拟 合 要 求 限 制 标签 训练 数据 子 集 的 使 用 , 更 多 的 训练 数据 有 助 于 























避免 模型 初期 便 出 错 。 对 具体 问题 而 言 ， 所 分 析 问 题 的 复杂 程度 不 同 ， 需 要 达到 的 平衡 也 不 同 。 
通过 观察 问题 出 现时 的 迹象 , 以 及 时 采取 恰当 的 行动 ( 即 增加 或 减少 在 一 次 迭代 中 同时 使 用 的 标 
签 数据 量 )。 








自 训 练 更 严重 的 潜在 风险 是 ,无 标签 数据 往往 存在 噪声 。 如 果 需 要 处 理 的 数据 集中 的 部 分 ( 其 
至 全 部 ) 无 标签 数据 存在 大 量 噪声 ， 那 么 分 类 精度 很 可 能 会 降低 。 
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用 数据 复杂 度 和 噪声 测度 来 度量 数据 集中 的 噪声 程度 的 做 法 由 来 已 久 , 现 有 
许多 估计 方法 可 用 。 
相对 复杂 度 度 量 有 两 大 类 。 其 中 之 一 度量 的 是 不 同类 别 的 值 的 重 登 区 域 , 也 
称 “ 可 分 性 ”, 这 种 组 内 的 度量 能 够 描述 每 一 类 相对 其 他 类 的 模糊 程度 。 这 种 情 
况 下 ， 比 较 好 的 一 种 度量 方法 是 最 大 费 舍 尔 判 别 比 (Fisher's discriminant ratio )， 
” ”最 大 单个 特征 效率 同样 有 效 。 

或 者 用 线性 分 类 器 的 误差 函数 来 了 解数 据 集 内 类 别 之 间 的 分 离 程度 ( 有 时 这 

样 做 更 简单 )。 通 过 在 数据 集 上 训练 一 个 简单 的 线性 分 类 器 ， 并 观察 训练 误差 ， 
可 以 快速 、 全 面 地 了 解 类 别 的 线性 分 离 程度 .此 外 ,与 分 类 器 相关 的 性 能 度量 ( 比 

如 处 于 类 边界 的 样本 占 比 ， 或 类 间 / 类 内 最 邻近 距离 的 平均 比率 ) 也 很 有 帮助 。 
其 他 的 数据 复杂 度 测度 可 以 专门 度量 数据 集 的 密度 或 其 他 性 质 ,例如 最 大 和 零 
范围 比 。 再 次 强调 , 可 以 用 线性 分 类 器 或 包含 非 线 性 成 分 的 分 类 器 实现 有 效 的 

















自 训练 算法 正常 运行 的 关键 指标 是 能 精确 计算 每 个 预测 标签 的 置信 度 。 置 信 度 的 计算 是 自 训 
练 成 功 的 关键 。 


第 一 次 解释 自 训练 时 ,给 几 个 参数 赋 的 值 太 过 简单 了 , 其 中 包括 与 置信 度 计 算 紧 密 相 关 的 参 
数 。 选 择 标 签 实例 时 使 用 了 一 个 国定 的 置信 水 平 , 用 于 比较 预测 概率 ， 其实 可 以 改 用 以 下 任意 一 
种 方法 。 
口 将 所 有 预测 标签 加 入 标签 数据 集 。 
口 根据 置信 和 度 阔 值 选 出 数据 集中 置信 度 最 高 的 几 个 标签 。 
口 将 所 有 预测 标签 加 入 标签 数据 集 ， 并 将 置信 和 度 作为 每 个 标签 的 权重 。 

总 体 而 言 ， 自 训练 的 实现 有 很 多 问题 ， 容 易 出 现 一 系列 训练 失误 ,也 容易 过 度 拟 合 。 更 糟糕 
的 是 ， 随 着 无 标签 数据 的 增加 ， 自 训练 分 类 需 的 精度 也 会 越 来 越 成 问题 。 


下 面 考虑 一 个 截然 不 同 的 自 训 练 实现 。 虽 然 这 种 技术 在 概念 上 与 前 面 介绍 的 算法 非常 相似 ， 
但 它 能 在 不 同 假设 下 得 出 不 同 结果 。 
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5.3.2 ”对 比 悲观 似 然 估计 


前 面 对 自 训练 技术 的 探索 和 应 用 表明 ， 自 训练 既 强 大 ,又 伴随 着 巨大 的 风险 。 因 此 需要 使 用 
诊断 工具 ， 对 数据 集 也 有 严格 要 求 。 虽然 可 以 通过 采样 、 识 别 最 佳 标 签 数据 ， 以 及 追踪 一 些 数 据 
集 的 表现 来 处 理 这 些 问题 , 但 是 对 于 一 些 标记 成 本 高 郧 ( 比如 医药 或 科学 等 需要 专业 知识 和 设备 
的 领域 ) 的 数据 来 说 ， 虽 然 自 训练 很 适用 ， 但 前 面 讲 的 那些 解决 方法 依旧 很 难 实现 。 
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有 时 最 终 得 到 的 自 训 练 分 类 器 比 监督 分 类 器 效果 更 好 ， 这 种 情况 其 实 很 糟糕 。 更 糟糕 的 是 ， 
基于 标签 数据 训练 的 监督 分 类 器 会 随 着 数据 的 增加 而 提升 精度 , 有 时 半 监 督 分 类 器 却 相反 。 因 此 ， 
需要 一 种 不 那么 “自以为是 ”的 半 监 督学 习 方 法 。 我 们 希望 这 种 方法 既 具 备 半 监督 学 习 的 优点 ， 
又 能 匹敌 监督 分 类 名 的 性 能 。 


CPLE 是 一 种 自 监督 学 习 方 法 ， 提 供 了 一 种 更 泛 化 的 半 监 督 参 数 估计 方式 。CPLE 有 一 个 显 
著 的 优势 : 实践 证 明 其 标签 预测 精度 超过 其 他 半 监 督 分 类 顺 , 甚至 包括 基于 标签 数据 构建 的 监督 
分 类 器 。 换 名 话说， 在 进行 线性 判别 时 ， 无 须 使 用 监督 分 析 ， 可 以 用 以 CPLE 为 基础 的 半 监 督 分 
析 ， 后 者 的 效果 至 少 不 会 比 前 者 差 。 

以 上 结论 比较 笼统 ， 需 要 进一步 证 实 。 首 先 介绍 一 下 CPLE 的 原理 ,然后 在 实际 问题 中 验证 
其 优越 性 。 

CPLE 用 最 大 对 数 似 然 函 数 来 优化 参数 。 下 面 即将 构造 的 模型 旨 在 通过 优化 模型 参数 来 实现 
对 数 似 然 佑 计 的 最 大 化 ， 可 以 视 其 为 本 模型 的 核心 条 件 。CPLE 的 一 些 保证 和 假设 使 得 该 技术 高 
度 可 用 。 


为 了 构建 更 好 的 半 监 督学 习 器 (基于 监督 学 习 器 进行 改良 ) CPLE 明确 考虑 了 监督 估计 , 并 
将 半 监 督 模型 和 监督 模型 间 的 损失 作为 训练 性 能 测度 〈 见 图 5-3 )。 

















当 有 监督 模型 无 法 正确 地 对 实例 分 类 
而 半 监 督 模型 可 以 时 


| CPLE 使 用 半 监 督 模型 ， 结 果 优 于 有 上 监督 模型 


当 半 监督 模型 无 法 正确 地 对 实例 进行 分 类 
而 有 监督 模型 可 以 时 


| CPLE 回 退 到 有 监督 模型 得 到 的 更 可 靠 的 结果 ， 
与 其 保持 一 致 
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CPLE 计算 所 有 半 监 督 估计 较 监督 解决 方案 的 相对 提升 。 如 果 监 督 解决 方案 更 优 ， 损 失 函 数 
会 如 实 显示 ,并 通过 训练 调整 半 监 督 模型 来 降低 损失 ,否则 模型 就 会 调整 参数 来 学 习 半 监督 模型 。 


这 听 起 来 不 错 , 但 理论 中 存在 一 个 不 可 忽视 的 环 疲 。 半 监督 解决 方案 中 不 存在 数据 标签 ,这 
意味 着 无 法 取得 后 验 分 布 ( CPLE 用 于 计算 损失 )。 因 此 CPLE 采取 了 “悲观 的 ”方法 。CPLE 算 
法 取 所 有 标签 /预测 组 合 的 笛 卡 儿 积 ， 然 后 选择 能 够 使 似 然 估计 增益 最 小 的 后 验 分 布 。 


在 现实 的 机 器 学 习 环境 中 , 该 方法 表现 平稳 。 它 能 通过 保守 的 假设 提升 半 监 督 算法 性 能 ， 从 
而 确保 监督 方法 的 分 类 精度 。 在 实际 应 用 中 , 这些 保守 的 假设 能 使 得 模型 在 测试 时 表现 优良 。 不 
仅 如 此 ，CPLE 还 可 以 在 一 些 最 具 挑 战 性 的 无 监督 学 习 案例 中 进一步 提升 性 能 ， 这 些 问 题 中 的 标 
签 数据 往往 无 法 很 好 地 代表 无 标签 数据 ( 因为 在 一 个 或 多 个 类 别 中 的 糟糕 采样 ,或 者 单纯 因为 无 
标签 实例 不 足 )。 


为 了 说 明 CPLE 较 半 监督 方法 或 监督 方法 的 性 能 优势 ,下 面 用 该 技术 解决 一 个 实际 问题 。 这 
次 仍 使 用 semisup-learn 库 , 这 个 专业 的 Python 库 主 要 用 于 半 监 督学 习 , 它 拓 展 了 scikitlearn， 以 
便 为 scikit-learn 中 的 多 个 分 类 器 提供 CPLE。 首 先 构 建 一 个 CPLE 类 。 


Class CPLELearningModel (BaseEstimator): 










































































def _ init _(self, basemodel, pessimistic=True, predict_from probabilities = 
False, use_sample weighting = True, max_iter=3000, verbose = 1): 
self.model = basemodel 
self.pessimistic = pessimistic 
self.predict_from probabilities = predict_from probabilities 
self.use_ sample weighting = use_sample weighting 
self.max_iter = max_iter 
self.verbose = verbose 


之 前 讲 过 basemode1 的 概念 了 。 前 面部 署 了 S3VM 和 半 监 督 的 LDE， 这 里 再 次 使 用 LDE?。 
首次 尝试 的 目标 是 超过 前 面 半 监督 LDE， 结 果 也 确实 如 此 。 


但 在 开始 前 ， 先 查看 一 下 其 他 参数 选择 。 可 以 通过 pessimistic 参数 应 用 非 悲观 ( 乐观 ) 
模型 。pessimistic 方法 会 保守 考虑 无 标签 数据 和 标签 数据 的 似 然 估计 的 差 值 , 即 把 其 最 小 化 ， 
而 乐观 模型 会 将 其 最 大 化 ， 这 样 做 结果 更 好 ( 主要 指 训练 集 上 的 表现 ), 但 风险 也 更 大 。 这 里 选 
择 翡 观 模型 。 


predict_from_probabilities 参数 通过 考虑 多 个 数据 的 预测 概率 来 完成 优化 ,设置 该 参 
数 为 true 时 ,如 果 用 于 预测 的 概率 超过 均值 ，CPLE 会 将 该 预测 赋值 为 1, 反之 为 0。 还 可 以 使 
用 基础 模型 的 预测 概率 作为 预测 结果 ,该 指标 性 能 更 好 ， 因 此 通常 更 受 青睐 。 当 然 , 对 于 大 量 实 
例 ， 往 往 调用 predict 来 实现 批量 预测 。 







































































中 此 处 的 S3VM 是 指 前 文 模型 讲解 阶段 提 及 的 以 支持 向 量 机 为 基准 模型 的 半 监 督 算法 ， 而 半 监 督 LDE 是 前 文 模型 
应 用 阶段 提 及 的 以 线性 模型 为 基准 模型 的 半 监 督 算法 。 一 一 译 者 注 
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还 可 以 选用 use_sample_weighting, 也 称 软 标签 ( 或 “后 验 概率 ”)。 通 常会 使 用 该 参数 ， 
因为 软 标签 比 硬 标签 灵活 ， 多 作为 首选 ( 除非 模型 只 支持 硬 标签 )。 


前 儿 个 参数 用 于 判断 CPLE 训练 何 时 停止 , 有 的 条 件 是 达到 最 大 迭代 数 ， 有 的 则 是 对 数 似 然 
函数 不 再 提升 (通常 是 收敛 导致 的 )。 pestdl 记录 最 佳 的 似 然 估计 差异 值 和 对 应 的 软 标签 ， 这 
些 值 会 随 每 次 训练 迭代 更 新 。 


self sit Een 
self.noimprovementsince = 0 
self.maxnoimprovementsince = 3 


























self.buffersize = 200 
self.lastdls = [0]*self.buffersize 


self.bestdl = numpy.infty 


self.bestlbls = [] 


self.id = str(unichr (numpy.random.randint (26)+97))+str (unichr (numpy .random. 
randint (26)+97)) 


discriminative_1ikelihoog 困 数 计算 给 定 输入 下 的 似 然 估计 (对 于 判别 模型 来 说 ， 即 
在 给 定 输入 丈 的 情况 下 ， 寻 找 使 ) 王 1 的 概率 最 大 的 模型 )。 





请 注意 本 例 中 的 生成 模型 和 判别 模型 的 区 别 。 虽 然 这 不 是 一 个 基本 概念 , 却 
是 理解 许多 分 类 器 目标 的 基础 。 
分 类 模型 用 输入 数据 对 实例 进行 分 类 ,并 给 每 个 实例 分 配 标签 。 这 样 的 方法 
5 有 很 多 。 
方法 之 一 是 在 实例 间 绘 制 决 策 边 界 。 随 后 获得 新 实例 时 ,就 能 办 别 它 将 落 在 
一 哪 一 侧 。 这 是 一 种 判别 学 习 方法 。 
另 一 种 方法 是 单独 模拟 每 一 类 的 分 布 。 模 型 生成 后 , 算法 就 可 以 根据 输入 数 
据 用 贝 叶 斯 法 则 计算 标签 的 后 验 分 布 。 这 便 是 生成 方法 ， 它 非常 强大 ,但 缺陷 也 
显而易见 (很 大 程度 上 与 建 模 的 性 能 相关 )。 生 成 方法 包括 高 斯 判别 模型 和 许多 
贝 叶 斯 模型 。 更 多 信息 (包括 一 些 优质 的 推荐 文章 ) 参见 5.4 节 。 


在 本 例 中 ,该 函数 将 在 每 次 迭代 时 计算 预测 标签 的 概率 。 


def discriminative_likelihood(self, model, labeledData, labeledy 
None, unlabeledData = None, unlabeledWeights = None, unlabeledlambda 
1, gradient=[], alpha = 0.01): 
unlabeledy = (unlabeledWeights[:, 0]<0.5)*1 
uweights = numpy.copy (unlabeledWeights[:, 0]) 


中 


uweights[unlabeledy==1] = 1-uweights[unlabeledy==1] 


weights = numpy.hstack( (numpy.ones (len(labeledy)), uweights)) 
labels = numpy.hstack( (labeledy, unlabeledy)) 
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定义 好 CPLE 的 这 些 部 分 后 ， 还 需要 定义 监督 模型 的 拟 合 过 程 ， 这 要 用 到 model.fit 和 
model.predict_proba 组 件 来 预测 概率 。 
if self.use_sample weighting: 


model.fit (numpy.vstack( (labeledData, unlabeledData)), 
labels, sample weight=weights) 





else: 
model.fit (numpy.vstack( (labeledData, unlabeledData)), labels) 


P = model.predict_proba (labeledData) 


为 了 执行 悲观 CPLE， 需 要 先 根据 监督 数据 和 无 监督 数据 分 别 计算 判别 对 数 似 然 值 。 下 面 依 
次 在 标签 数据 和 无 标签 数据 上 执行 predict_proba。 


Ee 

labeledDL = -sklearn.metrics.log_loss(labeledy, P) 
except Exception, e: 

print e 


P = model.predict_ proba (labeledData) 


unlabeledP = model.predict_ proba (unlabeledData) 


Cr 
eps = le-15 
unlabeledP = numpy.clip(unlabeledP, eps, 1 - eps) 
unlabeledDL = numpy.average ( ( 
unlabeledqwWeightsxnumpy.vstack((1-unlabeledqy，unlabeledqy) ) .Txnumpy.1od 
(unlabeledP)) .sum(axis=1)) 
except Exception, e: 
print e 
unlabeledP = model.predict_ proba (unlabeledData) 


能 够 计算 标签 数据 和 无 标签 数据 的 判别 对 数 似 然 值 时 ， 就 可 以 通过 discriminative_ 
likelihood_objective 函数 设置 目标 了 。 这 里 的 目标 是 用 悲观 方法 〈 或 乐观 方法 ) 计算 每 次 
迭代 的 al ， 直 到 模型 收敛 或 达到 最 大 迭代 次 数 。 


每 次 迭代 时 ， 用 检验 判断 概率 是 否 发 生变 化 。 收 敛 前 ， 概 率 应 随 每 次 迭代 发 生变 化 。 如 前 
所 示 ， 连 续 3 次 未 变化 的 1 检验 意味 着 迭代 应 终止 ( 可 以 通过 maxnoimprovementsince 参数 
配置 次 数 )。 
if self.pessimistic: 
dl = unlabeledlambda * unlabeledDL - labeledDL 


else: 
dl = - unlabeledlambda * unlabeledDL - labeledDL 
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return dl 


def discriminative_likelihood_ objective(self, model, labeledData, 
labeledy = None, unlabeledData = None, unlabeledWeights = None， 
unlabeledlambda = 1, gradient=[], alpha = 0.01): 
Lf SelLE :teEr Os 
self.lastdls = [0]*self.buffersize 


dl = self.discriminative_likelihood!( 
model, labeledData, labeledy, unlabeledData, unlabeledWeights, 
unlabeledlambda, gradient, alpha) 


self.it += 1 
self.lastdls[numpy.mod(self.it, len(self.lastdls))] = dl 


: # or True: 

(len(self.lastdls)/2):])) - 
elf.lastdls[: (len(self. 
) 


if numpy.mod(self.it, self.buffersize) == 0 
improvement = numpy.mean((self.lastdls![ 
numpy .mean((s 

lastdls)/2)]) 

_, prob = scipy.stats.ttest_ind(self.lastdls[(len(self.lastdls)/2):], 
self.lastdls[: (len(self.lastdls)/2)]) 


noimprovement = prob > 0.1 and numpy.mean ( 
self.lastdls[ (len(self.lastdls)/2):]) < numpy.mean(self.lastdls 
[: (len(self.lastdls)/2)]1) 
if noimprovement: 
self.noimprovementsince += 1 
if self.noimprovementsince >= self. 
maxnoimprovementsince: 


self.noimprovementsince = 0 
raise Exception(" converged.") 
else: 
self.noimprovementsince = 0 


每 次 迭代 时 ,算法 会 存储 最 佳 的 判别 似 然 值 和 权重 集合 ， 用 于 下 次 迭代 。 


if dl < self.bestdl: 
self.bestdl = dl 
self.bestlbls = numpy.copy (unlabeledWeights[:, 0]) 


return dl 
如 何 构造 软 标签 也 值得 探讨 。 前 面 探讨 过 这 一 话题 ， 代 码 如 下 所 示 。 
f = lambda softlabels, grad=[]: self.discriminative_likelihood objectivel( 


self.model, labeledx, labeledy=labeledy, 
unlabeledData=unlabeledx, 





unlabeledWeights=numpy.vstack( (softlabels, 1-softlabels)).T, gradient=grad) 


lblinit = numpy.random.random(len (unlabeledy)) 
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简 而 言 之 ,softlabels 是 判别 位 然 值 计算 的 概率 版 本 ， 即 它们 是 概率 值 ， 而 非 二 元 硬 类 标 
签 。 软 标签 用 opt imize 方法 计算 。 


和 
Selfit SE 0 
opt = nlopt.opt (nlopt.GN_DIRECT_L_ RAND, M) 
opt.set_lower_bounds (numpy .zeros (M) ) 
opt.set_upper_bounds (numpy .ones (M)) 
opt.set_ min objective(f) 
opt.set_maxeval (self.max_iter) 
self.bestsoftlbl = opt.optimize (lblinit) 
print " max_iter exceeded." 

except Exception, e: 
print e 
self.bestsoftlbl = self.bestlbls 


if numpy.any (self.bestsoftlbl != self.bestlbls): 
self.bestsoftlbl = self.bestlbls 
1]1 = f(self.bestsoftlb]l) 





unlabeledy = (self.bestsoftlbl<0.5)*1 
uweights = numpy.copy (self.bestsoftlbl) 


uweights[unlabeledy==1] = 1l-uweights[unlabeledy==1] 





weights = numpy.hstack( (numpy.ones (len(labeledy)), uweights)) 
labels = numpy.hstack( (labeledy, unlabeledy)) 





p 如 有 兴趣 ， 可 以 了 解 一 下 优化 过 程 用 牛顿 共 斩 梯 度 ( Newton conjugate 
gradient ) 方法 计算 梯度 下 降 ， 以 寻找 最 佳 权重 值 。5.4 节 提供 了 牛顿 闪 地 梯度 的 
参考 书目 。 


讲解 完 原理 后 ,下 面 计算 比较 最 佳 监督 标签 和 软 标签 , 并 将 bestsoftlabel 参数 设 为 最 佳 
标签 集 ， 然 后 用 最 佳 标签 集 计算 判 别 似 然 值 ， 并 计算 fit 函数 。 


if self.use_sample weighting: 
self.model.fit (numpy .vstack( (labeledx, unlabeledXx)), 





labels, sample weight=weights) 
else: 
self.model.fit (numpy .vstack( (labeledx, unlabeledx)), labels) 
if self.verbose > 1: 
print "number of non-one soft labels: ", numpy.suml( 
self.bestsoftlbl != 1), ", balance:", numpy.sum(self.bestsoftlbl<0.5), 
"/ ", lenl(self.bestsoftl1bl) 
print "current likelihood: ", 11 

















介绍 过 CPLE 的 实现 后 ， 下 面 用 数据 集 试 试 吧 。 这 次 使 用 哥伦比亚 大 学 的 百 万 歌曲 数据 集 。 


该 算法 的 主要 特征 是 对 100 万 首 歌 曲 进 行 特 征 分 析 和 数据 诠释 。 这 些 数 据 经 过 了 预 处 理 , 包 
含 很 多 原始 特征 和 衍生 特征 。 可 用 特征 包括 歌手 姓名 和 ID、 歌 曲 时 长 、 响 度 、 节 拍 和 每 首 歌 的 
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节奏 ， 以 及 其 他 测度 (包括 大 众 对 其 作为 舞曲 的 适合 度 评分 以 及 音频 相关 标签 )。 


该 数据 集 基 本 上 自 带 标签 , 但 这 里 的 目标 是 基于 数据 生成 不 同 歌曲 的 类 型 标签 。 因 为 该 数据 
集 非常 庞大 (300GB )， 所 以 只 处 理 1%，10 000 首 歌 曲 ( 约 1.8GB )。 此 外 ， 目 前 不 需要 数据 的 
所 有 信息 ， 其 格式 信息 无 用 ， 许 多 变量 也 用 不 到 。 


10000_songs 数据 集 位 于 第 6 章 的 文件 夹 中 ， 它 是 包含 多 个 类 型 的 音乐 数据 的 子 集 ， 已 经 
过 清洗 和 预 处 理 ( 但 仍然 很 大 )。 本 次 分 析 将 尝试 根据 作为 目标 变量 的 类 型 标签 预测 歌曲 类 型 ， 
将 一 部 分 标签 作为 标签 数据 ， 用 于 学 习 ， 然 后 为 无 标签 数据 生成 标签 。 

本 次 迭代 将 以 如 下 方式 实现 提升 。 
口 使 用 更 多 标签 数据 。 这 次 随机 选择 整个 数据 集 1% 的 数据 ( 100 首 歌曲 ) 作为 标签 数据 。 
口 用 带 有 线性 核 的 支持 向 量 机 作为 分 类 器 ， 而 不 是 前 面 朴素 自 训练 用 过 的 简单 线性 判别 

分 析 。 

开始 吧 ! 
import sklearn.svm 


import numpy as np 
import random 





















































from frameworks.CPLELearning import CPLELearningModel 
from methods import scikitTSVM 
from examples.plotutils import evaluate_ and plot 


kernel = "linear" 


songs = fetch mldata("10000_songs") 
X = songs.data 

ytrue = np.copy (songs.target) 
ytrue[lytrue==-1]=0 


labeled N = 20 
ys = np.array ([-1]*len(ytrue)) 


random_ labeled points = random.sample (np.where(ytrue == 0) [0]， 
labeled_N/2)+\ 
random.sample (np.where(ytrue == 1) [0]， 
labeled_N/2) 
ys[random labeled points] = ytrue[random labeled points] 





为 了 进行 比较 ,将 同时 运行 监督 支持 向 量 机 和 CPLE， 并 实现 前 面 提 到 的 朴素 自 监督 算法 。 
basemodel = SGDClassifier(loss='log', penalty=']11') # scikit logistic regression 


basemodel .fit (Xx[random labeled points, :], ysl[lrandom labeled points]) 
print "supervised log.reg. score", basemodel.score(X, ytrue) 


ssmodel = SelfLearningModel (basemode!l) 


5.4 扩展 阅读 89 





ssmodel.fit (Xx, ys) 
print "self-learning log.reg. score", ssmodel.score(X, ytrue) 


ssmodel = CPLELearningModel (basemodel) 
ssmodel .fit (Xx, ys) 
print "CPLE semi-supervised log.reg. score", ssmodel.score(X, ytrue) 


本 次 迭代 的 结果 非常 不 错 。 
# 有 监督 的 逻辑 回归 得 分 : 0.698 


# 自学 习 逻 辑 回 归 得 分 : 0.825 
# CPLE 半 监 督 逻 辑 回 归 得 分 : 0.833 




















基于 Heart 数 据 集 的 CPLE 半 监督 逻辑 回归 分 类 的 ROC 曲 线 











一 一 ”类别 0 的 ROC 曲 线 (面积 = 0.84) 
一 类别 1 的 ROC 曲 线 (面积 = 0.84) 














图 5-4 


CPLE 半 监 督 模 型 以 84% 的 精度 成 功 完成 了 分 类 ， 该 精度 可 与 人 类 佑 计 相 媲 美 ， 且 比 朴素 半 
监督 实现 高 出 约 10%。 值 得 注意 的 是 ， 该 精度 还 超过 了 监督 支持 向 量 机 。 

















5.4 扩展 阅读 


Xiaojin Zhu 撰写 的 “Semi-Supervised Learning Literature Survey” 内 容 详尽 ， 是 理解 半 监 督学 
习 的 良好 起 点 。 


该 作者 的 另 一 篇 文章 也 值得 阅读 :“Semi-Supervised Learning Tutorial”。 








对 于 对 比 翡 观 最 大 似 然 估 计 , 可 参考 Marco Loog 在 2015 年 发 表 的 论文 “Contrastive Pessimistic 
Likelihood Estimation for Semi-Supervised Classificatio” 。 
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本 章 提 到 了 生成 模型 和 判别 模型 的 区 别 ，Andrew Ng ( http://cs229.stanford.edu/notes/cs229- 
notes2.pdf ) 和 Michael Jordan (“Why the logistic function? A tutorial discussion on probabilities and 
neural networks ”) 对 此 做 了 相关 明确 说 明 。 


如 果 对 贝 叶 斯 统计 感 兴 趣 ， 不 妨 阅 读 Allen Downey 的 Think Bayes ， 这 是 一 部 入 门 佳作 (我 
最 喜欢 的 统计 书 之 一 )。 


要 想 了 解 更 多 梯度 下 降 知识 ， 推 荐 阅读 Sebastian Ruder 的 博客 ( http://sebastianruder.com/ 
optimizing-gradient-descent/ )。 























如 果 想 深入 了 解 共 恩 下 降 , Jonathan Shewchuk 的 文章 “An Introduction to the Conjugate Gradient 
Method Without the Agonizing Pain” 清 楚 而 有 趣 地 介绍 了 一 系列 关键 概念 。 


5.5 小 结 
这 一 章 介 绍 了 机 器 学 习 中 颇具 实力 但 知名 度 不 太 高 的 领域 一 一 半 监 督学 习 。 首 先 介 绍 了 转 导 
推理 学 习 和 自 训 练 所 涉及 的 概念 ， 然 后 通过 朴素 自 训 练 实现 进一步 展示 了 后 一 类 技术 。 


自 训练 的 缺陷 很 快 就 显露 了 ， 而 CPLE 可 作为 高 效 解决 方案 。CPLE 是 一 种 优雅 且 高 度 可 用 
的 半 监 督学 习 框架 ， 无 须 在 用 作 基 础 模型 的 分 类 器 上 进行 任何 假设 。CPLE 在 大 量 朴 素 半 监 督 和 
监督 实现 中 得 到 了 持续 应 用 ， 且 风险 极 小 。 本 章 详 细 介 绍 了 机 器 学 习 中 这 项 有 用 的 新 技术 。 


下 一 章 将 介绍 数据 处 理 技术 ， 该 技术 可 以 有 效 提 高 模型 的 效率 。 
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前 几 章 详细 介绍 了 一 些 强大 的 技术 ,这些 技术 能 够 分 析 复 杂 、 棘 手 的 数据 。 然 而 ， 对 于 更 复 
杂 的 问题 ， 技 术 能 做 的 始终 有 限 。 

一 直 以 来 , 深度 学 习 和 监督 学 习 寻 找 解 决 方案 的 过 程 往往 需要 团队 投入 大 量 成 本 。 在 旧 模式 
下 ， 通 常 需要 进行 特定 的 准备 工作 ， 这 对 专业 技能 和 知识 储备 都 有 要 求 ， 还 需要 投入 大 量 时 间 。 
此 外 ， 和 采用 的 技术 往往 仅 针对 特定 领域 或 特定 数据 类 型 。 这 个 生成 特征 的 过 程 就 称 作 特征 工程 。 

前 面 介绍 的 大 多 数 深度 学 习 算法 在 尽量 避免 进行 大 量 特征 工程 , 但 特征 工程 一 直 被 视 作 顶尖 
机 器 学 习 从 业者 需要 具备 的 一 项 重要 技能 。Kaggle 的 顶尖 参赛 者 在 Kaggle 的 博客 上 发 表 了 如 下 


言论 。 
































“选用 的 特征 对 结果 的 影响 远 超 其 他 元 素 。 据 我 所 知 ， 没 有 任何 单独 的 算法 能 够 实 
现 正确 的 特征 工程 所 带 来 的 信息 增 量 。” 





一 Luca Massaron 


“ 毫 无 疑问 ， 特 征 工 程 是 Kaggle 大 赛 最 重要 的 方面 之 一 ， 需 要 投入 更 多 时 间 。 数 据 

中 往往 存在 一 些 隐藏 特征 ， 这些 特 征 能 够 大 幅 提升 模型 性 能 。 要 想 名 列 前 茅 ， 就 必须 找 
到 它们 。 如 果 在 这 方面 表现 不 住 , 基本 上 就 没 机 会 获胜 了 。 除了 找到 所 有 隐藏 特征 ,还 
有 其 他 一 些 重要 因素 会 影响 排名 ， 比 如 如 何 规划 问题 ， 是 用 回归 模型 还 是 分 类 模型 ， 或 
者 两 者 结合 。 这 一 点 和 特征 工程 都 是 在 比赛 中 取得 好 成 绩 的 关键 。 也 有 一 些 比赛 不 再 要 
求 ( 人 工 的 ) 特征 工程 ， 比 如 图 像 处 理 比赛 ， 因 为 目前 先进 的 深度 学 习 算法 可 以 实现 。” 
一 一 Josef Feigl 


这 里 有 几 个 关键 点 : 特征 工程 非常 强大 ,即使 是 极 少量 的 特征 工程 ,也 能 对 分 类 器 产 成 巨大 
影响 ， 而 且 特 征 工程 往往 是 取得 最 佳 结果 的 关键 因素 。 要 想 实 现 机 器 学 习 算 法 的 性 能 最 大 化 ， 需 
要 具备 一 定 的 特定 领域 和 特定 数据 类 型 知识 。 
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还 有 一 句 话 是 : 

“对 于 大 多 数 Kaggle 参赛 者 而 言 ， 特 征 工程 是 最 重要 的 部 分 ， 而 且 吻 于 学 习 。” 
Tim Salimans 

Tim 所 言 不 假 ， 本 章 主要 介绍 直观 且 有 效 的 数据 处 理 技巧 和 数据 转换 方法 ,包括 一 些 用 于 文 
本 和 时 间 序 列 数据 的 最 有 效 且 最 常用 的 数据 预 处 理 方法 ,这 些 技术 来 自 自然 语言 处 理 和 人 金融 时 间 
序列 相关 应 用 。 下 面 将 介绍 这 些 技术 的 原理 、 效 果 ， 以 及 如 何 诊断 结 


6.2 文本 特征 工程 


前 面 介绍 了 一 些 从 数据 集中 提取 有 用 的 特征 子 集 的 方法 。 这 些 通 用 方法 在 处 理 非 数值 型 数据 
或 非 类 型 数据 ， 以 及 无 法 简单 转化 成 数值 型 数据 或 类 型 数据 时 ， 用 处 却 不 大 。 因 此 ,处理 文本 数 
据 时 需要 应 用 不 同 的 技术 。 


本 节 将 介绍 的 技术 主要 分 为 两 类 : 数据 清洗 技术 和 特征 准备 技术 。 通 常 这 两 种 技术 按照 顺序 
应 用 ， 下 面 依次 介绍 。 
































6.2.1 清洗 文本 数据 


处 理 自然 文本 数据 要 用 到 一 系列 方法 , 因为 现实 中 很 少 存在 天 然 干净 的 文本 数据 。 文 本 数据 
往往 充满 了 拼写 错误 和 表情 符号 等 非 字 典 结构 ， 有 时 还 有 HTML 标签 ， 因 此 必须 进行 彻底 清洗 。 


本 广 将 使 用 许多 高 效 的 文本 清洗 技术 来 处 理 一 个 相当 粗糙 的 实际 数据 集 。 该 数据 集 是 2012 
年 Kaggle 大 赛 的 Impermium 数据 集 ， 这 次 大 赛 的 目标 是 构建 能 精确 发 现 社交 评论 中 含 侮辱 言论 
的 模型 。 


没 错 ， 就 是 识别 网 络 喷 子 。 
下 面 开 始 吧 ! 
1. 用 BeautifulSoup 进行 文本 清洗 


首先 人 工 检查 输入 数据 。 这 一 步 非 常 关键 ， 只 有 理解 了 文本 数据 中 存在 的 问题 ,才能 找到 相 
应 的 清洗 方式 。 


浏览 这 个 充斥 着 网 络 仇恨 言论 的 数据 集 真 的 很 痛苦 ， 因 此 这 里 只 展示 一 例 ( 见 表 6-1 )。 
表 6-1 
ID 日 期 评 论 


























132 20120531031917Z """\xa0@Flip\ixa0how are you not ded""" 
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变量 ID 和 日 期 似乎 无 须 处 理 ， 但 文本 部 分 极 具 挑 战 性 。 本 例 中 就 出 现 了 拼写 错误 和 HTML 
元 素 。 此 外 ,通过 添加 空格 或 标点 ， 数 据 集中 的 很 多 条 目 避 开 了 脏话 过 滤 。 其 他 数据 质量 问题 包 
括 多 重 元 音 (为 了 扩充 词语 )、 非 ASCII 码 的 字符 、 超 链接 …… 不 胜 枚 举 。 


清洗 该 数据 集 的 方法 之 一 是 在 输入 数据 上 执行 正则 表达 式 ， 处 理 数 据 质量 问题 。 然 而 ， 庞 大 
的 数据 量 和 多 样 化 的 问题 形式 使 得 使 用 正则 表达 式 不 太 现实 , 至 少 一 开始 如 此 。 可 能 因为 错过 了 
很 多 实例 ,或 者 误 判 了 需要 预 处 理 的 数据 量 ， 从 而 导致 清洗 过 度 或 清洗 不 足 。 具 体 而 言 ， 可 能 会 
破坏 真正 的 文本 内 容 或 遗留 一 些 标签 元 素 。 解 决 方案 是 首先 清除 大 部 分 常见 的 数据 质量 问题 ， 以 
着 重 通过 脚本 处 理 剩余 问题 。 
下 面 介 绍 Beautifulsoup。 这 是 一 个 非常 强大 的 文本 清洗 库 ， 还 能 移 除 HTML 标记 。 下 面 
用 该 库 来 处 理 钓鱼 数据 ( 见 表 6-2 )。 


from bs4 import BeautifulSoup 
import csy 





















































trOLLS SS YL] 
With pen( trolLe .oy yy xt ti) A ts 
reader = csv.DictReader (f) 
for line in reader: 
trolls.append (BeautifulSoup(str(line["Comment"]), "html .parser")) 


print (trolls{[0]) 
eg = BeautifulSoup(str(trolls), "html .parser") 


print (eg.get_text()) 





表 6-2 
ID 日 期 评 论 
132 20120531031917Z @Flip how are you not ded 





如 上 所 示 , 文本 数据 的 质量 大 为 改善 , 但 这 个 例子 也 表明 路 还 很 长 。 如 前 所 述 , 下 面 用 正则 
表达 式 进行 进一步 清洗 并 标记 数据 。 

2. 标点 符号 的 处 理 和 标记 化 

标记 化 ( tokenisation ) 是 将 文本 流 拆 分 成 记号 序列 的 过 程 。 记 号 可 以 是 单词 或 字符 集 ( 比如 









































移 除 原始 数据 集中 许多 碍 眼 的 HTML 内 容 后 ， 下 面 进 一 步 清洗 文本 数据 。 为 此 ， 需 要 使 用 
re 模块 ， 该 模块 利用 正则 表达 式 处 理 文本 ， 比 如 字符 串 局 部 替换 。 下 面 在 输入 文本 上 进行 一 系 
列 处 理 ， 主 要 包括 用 记号 替换 变量 或 有 问题 的 文本 元 素 ， 例 如 用 记号 _EM 替换 所 有 e-mail 地 址 。 


text = re.sub(r'[\w\-][\w\-\.]+@[\w\-] [\w\-\.]+[a-zA-Z]{1,4}', '_EM', text) 
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同样 ， 用 记号 _U 替换 URL。 


re.sub(r'\Ww+t:\/\/\S+t', Ir' 


还 可 以 自动 移 除 





text = Ue 





ee 


还 可 以 用 正则 表达 式 处 理 多 余 的 字母 。 将 


text) 





除 多 余 或 有 问题 的 空格 、 换 行 符 、 连 字符 和 下 划 线 。 此 外 ,首先 处 理 多 字符 的 
本题 ， 这 种 形式 通常 用 于 非 正 式 对 话 中 的 强调 。 加 长 的 一 





系列 标点 符号 则 编码 为 _Bo 和 BX。 这 














够 与 更 直接 的 _o 和 _x 区 别 开 来 ( 二 者 分 别 指 问号 和 感叹 号 )。 
这 样 的 字符 串 削 减 到 至 多 2 个 字符 ,就 能 将 组 合 数 
































量 减少 到 可 控 。 削 减 后 的 组 用 _EL 标记 。 
# 将 室 格 格式 化 
text PT Pcs J 
text = text.replace('\' 二 
text = text.replace('_', ' ') 
text = text.replace('-' mn 
text = text.replace('\n es ) 
text = text.replace('\\n CA 
text = text.replace('\' -+ 
Cext. sr Bey suB( text) 
text = text.replace('\' Ue 
# 处 理 标点 符号 
Cext = Te SUB(Er CTNEI) (N27 NZIALNS]) NBONRN3ST ‘text,) 
tex e Te sub (rr (Ns Ns to NL SSN FGext) 
Cext = euD(lE (FLV (NN IV, BXNINS , Text) 
Cext, :LE SUB(E CTY NN LEN EN ONAV2 ,Cext) 
text = re.sub(r' ([^I\?])!(\ZI [I\?])', r'\1l _X\n\2', text) 
text = re.subl(r'([a-zA-2Z2])\1\1l+(\w*)', Ir'\1\1\2 _EL', text) 
text = re.sub(r'([a-zA-Z2])\1\1l+(\w*)', Ir'\1\1\2 _EL', text) 
text = re.sub(r'(\w+t)\.(\w+)', r'\1\2', text) 
text = re.sub(r'[^a-zA-2Z2]','', text) 
i 其 中 最 有 用 的 是 指 代 辱 骂 的 _sw 记号 。 下 面 用 正则 表达 式 来 





辅助 识别 微笑 符号 ， 并 将 其 标记 为 以 下 四 类 之 一 : 开心 的 大 笑 〈(_Bs )、 开 心 的 微笑 (_s )、 十 分 
难过 BF ) 和 有 点 难过 (_F )。 

text = re.subl(r' ([#%&\*\$] {2,}) (\w*)', r'\1\2 _SW', text) 

text. = re Sub(r" [8X7] (RNINFINT SN 2 .Bo text) 

text = re.subl(r' (9: 1; :2] -2[\ )V}INLA>1) (2533)"; TY,  S", text) 

text renSub(r, [Xl CEN CNELNDILENNEALNE Le t22b Ts 让 BP texty) 

text re.subl(r' [x:=]-?[\(\[\I\\/\{<]', r' _F', text) 
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微笑 符号 非常 复杂 ,因为 它们 的 用 法 多 变 。 虽 然 目 前 这 一 系列 字符 相当 常用 ， 
， ”但 不 够 全 面 。 比 如 可 以 从 表情 符号 中 看 到 一 些 非 ASCII 码 的 表示 方式 。 出 于 一 
些 原因 ， 需 要 删除 本 例 中 的 非 ASCII 码 文 本 ( 另 一 种 类 似 的 方法 是 通过 一 个 词 
一 典 强制 规范 文本 ), 这 两 种 方法 都 存在 明显 缺陷 , 因为 都 删除 了 数据 集中 的 实例 ， 
即 二 者 都 不 完美 。 在 一 些 情况 下 , 这 种 方法 可 能 会 导致 删除 数据 过 多 。 总 而 言 之 ， 

应 意识 到 文本 领域 中 存在 文字 组 合 而 成 的 图 像 是 常见 问题 。 


然后 将 文本 分 市 成 短语 。 这 一 步 应 用 了 str.split， 该 函数 能 将 输入 作为 单词 向 量 进行 处 
理 ， 而 不 是 长 字符 串 (re )。 











出 








phrases = re.split(r'[;:\.()\n]', text) 

phrases = [re.findall(r'[\w$\*&#]+', ph) for ph in phrases] 
phrases = [ph for ph in phrases if ph] 

words = [] 


for ph in phrases: 
words .extend (ph) 


结果 如 表 6-3 所 示 。 








表 6-3 
ID 日 期 评 论 
132 20120531031917Z [['Flip', how', 'are', 'you', not, 'ded']] 


然后 搜寻 单个 字母 的 序列 。 有 时 网 络 上 的 讨论 会 以 空格 隔 开 的 单字 母 串 来 强调 某 些 事情 ， 
为 这 种 做 法 能 够 避 开 脏话 检测 。 


tmp = words 
words = [] 
new_word = '""' 
for word in tmp: 
if len(word) 
new_word 
else: 
if new_word: 
words.append (new_word) 
new_word = '""' 
words .append (word) 


前 面 做 了 许多 工作 来 清洗 输入 数据 和 提升 其 质量 。 但 数据 中 仍 有 问题 未 解决 。 下面 重 新 思 
一 下 最 初 这 个 案例 ， 该 案例 目前 如 表 6-4 所 示 。 


一 出 
new_word + word 





表 6-4 


1D 日 期 评 论 
132 20120531031917Z [_F', how' 'are', 'you', 'not', 'ded'] 
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经 过 前 面 的 清洗 ， 可 以 看 到 HTML 标签 清洗 和 向 量化 处 理 对 句子 内 容 的 影响 ， 表 情 符号 也 














很 好 地 替换 为 了 _F 记号 。 表 6-5 所 示 的 稍 复杂 的 案例 展示 了 文本 处 理 前 后 的 显著 改变 。 


表 
原 文 本 


6-5 
清洗 和 拆 分 后 





GALLUP DAILY nMay 24-26, 2012 \ u2013 Updates daily at 
1 p.m. ET; reflects one-day changenNo updates Monday, May 
28; next update will be Tuesday, May 29.mObama Approval48%- 
\nObama Disapproval45%-1nPRESIDENTIAL ELECTION\ 
nObama47%-nRomney45%-\n7-day rolling average\n\n It 
seems the bump Romney got is over and the president is on his 


[GALLUP', 'DAILY', 'May', 'u', 'Updates', 'daily', pm', 'ET,', 
'reflects', 'one', 'day', 'change', 'No', "updates', 'Monday', 'May,, 
mext, update', 'Tuesday', 'May', 'Obama', 'Approval', 'Obama,, 
"Disapproval'， 'PRESIDENTIAL', 'ELECTION', 'Obama, 
Romney'， 'day', 'rolling', 'average', 'It', 'seems', 'bump,', 
了 Romney', got,， 'president', 'game'] 





game. 


以 上 两 个 案例 仍 明 显存 在 两 个 严重 问题 。 首 先 , 第 一 个 案例 中 存在 一 个 拼写 错误 的 单词 , 需 
要 设法 删除 它 。 其 次 ， 两 个 案例 中 的 许多 单词 ( 比如 are 和 pm ) 本 身 意义 不 大 。 还 有 一 个 问题 ， 
尤其 是 对 短文 本 样本 来 说 , 清洗 过 后 的 内 容 可 能 只 包含 一 两 个 有 意义 的 词语 。 如 果 这 些 词 语 在 语 
料 库 中 并 不 常见 ， 那 么 很 难 训练 分 类 顺 来 识别 这 些 词语 的 含义 。 


3. 单词 的 标记 和 分 类 


英语 单词 按 词 性 ( 也 称 “ 词 类 ”) 可 分 为 名 词 、 动 词 、 副 词 ， 等 等 。 如 果 知 道 某 个 单词 是 形 
容 词 ， 而 不 是 动词 或 停止 词 ( 比如 a、the、of )， 算 法 就 能 有 针对 性 地 进行 处 理 。 


如 果 能 识别 词性 并 将 其 编码 为 类 型 变量 来 对 词语 进行 分 类 , 就 能 只 保留 有 价值 的 内 容 来 提高 
数据 质量 。 文 本 标记 的 方式 和 技巧 多 种 多 样 , 一 节 无 法 尽 述 , 因此 只 介绍 部 分 可 应 用 的 标记 技术 : 
n-gram 标记 和 回 退 标记 ， 这 对 技术 互补 ， 有 助 于 构建 强大 的 递归 标记 算法 。 


可 以 使 用 Python 的 NLTK (natural language toolkit， 自 然 语言 工具 ) 库 。NLTK 功能 丰富 ， 
本 章 后 面 很 多 地 方 也 会 用 到 。 下 面 先 用 NLTK 标记 和 删除 几 类 词 ， 此 处 特 指 停止 词 。 


那么 问题 来 了 一 一 为 什么 要 删除 停止 词 ? 通常 停止 词 对 大 部 分 文本 分 析 影 响 极 小 或 毫 无 影 
响 ， 反 而 会 带 来 一 定 程度 的 噪声 和 训练 方差 。 删 除 停止 词 的 方法 相当 简单 。 加 载 NLTK， 下载 并 
载 和 人 词 粗 ， 然 后 对 之 前 的 单词 向 量 进行 全 局 扫描 ， 将 找到 的 所 有 停止 词 删除 即 可 。 

import nltk 


nltk.download() 
from nltk.corpus import stopwords 








































































































words = 


该 步 又 很 简单 。 下 面 探索 NLTK 的 更 多 功能 ， 特 别 是 标记 (tag )。 


[w for w in words if not w in stopwords.words ("english")] 





e@ 用 NLTK 标记 


如 前 所 述 ， 标 记 是 识别 词性 、 给 每 个 词 添加 标签 的 过 程 。 
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最 简单 的 标记 方法 和 在 输入 数据 上 应 用 词典 一 样 简 单 ， 就 像 处 理 停止 词 那样 。 


tagged = ntlk.word tokenize (words) 


显然 ,实际 使 用 的 语言 更 为 复杂 。 一 个 词 (例如 ferry ) 可 能 拥有 多 种 词性 ， 无 法 轻易 确定 
其 在 每 个 语 境 中 的 词性 。 大 多 数 情 况 下 ,只 有 给 出 上 下 文 和 单词 在 短语 中 的 位 置 , 才能 正确 理解 
标签 的 含义 。 


有 多 种 技术 可 解决 语言 问题 。 

4. 序列 标记 

序列 标记 算法 从 左 到 右 逐 词 ( 因而 称 为 “序列 ”) 遍历 输入 数据 集 ， 给 每 个 词 添加 标签 。 所 
添加 的 标签 类 型 取决 于 该 词 、 该 词 前 面 的 词 ， 以 及 前 面 词 的 预测 标签 。 

下 面 使 用 n-gram 标记 器 。 这 是 一 种 序列 标记 ， 经 过 预 训练 后 能 够 识别 特定 标签 。n-gram 标 
记 带 能 根据 该 单词 和 前 面 n -1 个 词性 标签 (POS tag ) 生成 标签 。 
































; 请 注意 , n-gram 是 指 给 定 元 素 集 中 个 元 素 的 连续 序列 。 元素 可 以 是 字母 、 
单词 、 数 字 码 ( 比如 状态 变换 ) 或 其 他 元 素 。 n-gram 广泛 用 于 捕捉 nn 个 元 素 ( 短 
语 或 编码 的 状态 变换 ) 的 联合 含义 。 




















n-gram 标记 顺 的 最 简 形 式 是 取 7 = 1， 即 一 元 标记 。 一 元 标记 带 会 统计 每 个 记号 的 条 件 频率 
分 布 ,这 里 的 条 件 频 率 分 布 通过 训练 术语 语料库 构建 , 而 这 种 训练 可 以 用 NLTK 中 NgramTagger 
类 的 训练 方法 实现 。 该 标记 咒 假 设 , 给 定 序列 中 某 个 记号 出 现 最 频繁 的 标签 很 可 能 就 是 该 记号 的 
最 恰当 标签 。 如 果 carp 一 词 在 一 段 序列 中 4 次 为 名 词 、2 次 为 动词 ,那么 一 元 标记 需 就 会 给 类 别 
为 carp 的 所 有 记号 加 上 和 名词 标签 。 


以 上 做 法 对 初步 标记 而 言 足够 了 ,但 只 给 每 个 同音 词 添 加 一 个 标签 显然 远 远 无 法 满足 要 求 。 
需要 增 大 n-gram 中 的 n。 比 如 当 n=3( 即 用 三 元 标记 器 ) 时 ， 标 记 就 能 更 轻松 地 辨别 “He tends 
to carp on a lot”( 他 特别 吹 毛 求 疫 ) 和 “He caughta magnificent carp”( 他 得 到 了 一 条 漂亮 的 鲤鱼 )。 

标记 准确 度 和 标记 能 力 之 间 仍 需要 权衡 。 当 n 增 大 时 ,n-gram 的 长 度 也 会 增 大 , 同时 也 会 越 
来 越 罕 见 。 很 快 数据 中 将 不 再 出 现 n-gram， 标 记 器 也 就 无 法 再 为 现 有 记号 寻找 恰当 标签 了 。 
显然 ,需要 运用 一 系列 标记 需 。 先 让 最 准确 的 标记 顺 给 数据 集 贴 标签 ， 如 果 失 败 了 ， 再 用 更 
可 靠 ， 但 准确 度 可 能 略 低 的 标记 絮 进 行 尝试 。 

现 有 的 回 退 标记 足以 满足 需求 了 ， 下 面 详 述 。 
















































































@ 回 退 标记 


有 时 给 定 的 标记 器 可 能 不 够 可 靠 , 尤其 当 准确 度 要 求 较 高 ， 而 训练 数据 有 限时 。 此 时 通常 要 
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构建 一 个 集成 结构 ， 同 时 使 用 多 个 标记 器 。 

这 里 需要 区 分 两 类 标记 器 : 下 标 器 和 回 退 标记 器 ,前 者 类 似 于 前 面 讲 过 的 序列 标记 器 和 Brill 
标记 器 。 标 记 结 构 可 能 会 包含 一 种 或 多 种 标记 需 。 

如 果 下 标 器 无 法 确定 某 个 记号 的 标签 , 可 以 转 而 使 用 回 退 标记 器 。 回 退 标记 器 专门 用 于 合并 
下 标 器 组 合 〈 一 或 多 个 下 标 器 ) 的 结果 ， 如 图 6-1 所 示 。 

















































































































































































































回 退 标记 器 
尝试 第 1 个 下 标 器 尝试 第 2 个 下 标 器 尝试 第 N 个 下 标 器 
是 否 成 功 是 否 成 功 是 否 成 功 
是 3 是 四 | 是 否 
继续 标记 下 一 个 词 
图 6-1 














简单 情况 下 ， 回 退 标记 器 会 给 下 标 器 按 序 投票 ， 并 接受 第 一 个 非 空 值 的 标签 。 如 果 给 定 记 
号 的 所 有 下 标 咒 都 为 空 值 ,那么 回 退 标记 器 会 给 该 记号 添加 “无 ”的 标签 。 下 标 器 的 顺序 可 以 自 
定义 。 

回 退 标记 往往 与 其 他 下 标 器 一 同 使 用 , 以 便 数 据 科学 家 利用 多 种 标记 咒 的 优势 。 根据 具 体 需 
求 ， 回 退 有 多 种 方式 ， 还 可 以 创建 高 度 宛 余 或 极其 复杂 的 标记 结构 〈 见 图 6-2 )。 














6.2 文本 特征 工程 99 


| 尝试 1-gram 标 记 器 






























































是 否 成 蕊 
尝试 2-gram 标 记 器 是 否 
是 否 成 蕊 
尝试 3-gram 标 记 器 是 | 全 | 百 有 
是 否 成 功 
是 否 [ 玉 









































继续 标记 下 一 个 词 

















图 6-2 


通常 回 退 标记 顺 会 提供 元 余 , 便于 在 组 合 解决 方案 中 使 用 多 个 标记 器 。 为 解决 眼下 这 个 问题 ， 
需要 实现 一 组 戏 套 式 的 n-gram 标记 器 。 首 先 将 二 元 标记 器 作为 回 退 标记 咒 的 三 元 标记 上 器。 如果 
这 些 标记 器 都 没有 解 ， 青 将 一 元 标记 带 作 为 额外 的 回 退 标记 。 做 法 很 简单 ， 如 下 所 示 。 


brown_a = nltk.corpus.brown.tagged sents (categories= 'a') 














tagger = None 


for n in range(1,4) : 
tagger = NgramTagger (n, brown_ a, backoff = tagger) 


words = tagger.tag (words) 


6.2.2 ”根据 文本 数据 构造 特征 
文本 清洗 过 后 ,还 要 经 过 一 些 处 理 , 将 文本 变 为 有 用 的 特征 。 对 此 ,要 用 到 自然 语言 处 理 中 
的 以 下 重要 技术 。 
口 词 干 提取 
口 词性 还 原 
口 基于 随机 森林 的 bagging 算法 
1. 词 干 提取 


处 理 语言 数据 集 的 另 一 个 坏 手 问题 是 ， 词 干 存在 多 种 形式 。 比 如 ， 词 根 dance 就 是 许多 单词 
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的 词 干 : dancing 、dancer 、dances 等 。 如 果 能 将 这 些 形式 简化 为 词 干 ， 就 能 提升 n-gram 的 标记 效 
果 ， 也 能 应 用 一 些 新 技术 ， 比 如 词性 还 原 。 

能 将 单词 简化 成 词根 形式 的 技术 叫 作 “ 词 干 提取 器 ”。 它 可 以 将 单词 解析 为 辅音 /元 音字 符 串 ， 
并 应 用 一 系列 规则 。 最 常用 的 词 干 提取 器 是 波 特 词 干 器 ( porter stemmer )， 其 执行 步骤 如 下 所 示 。 

(1) 简化 后 级 的 范围 ， 将 其 缩小 到 更 小 的 集合 ( 例如 将 ies 变 为 i )。 

(2) 用 多 种 方式 删除 后 缀 ， 每 种 方式 都 会 删除 一 系列 后 组 〈 比如 过 去 分 词 后 级 或 复数 后 级 ， 
例如 ousness 或 alism )。 

(3) 删除 后 级 后 ， 给 需要 的 单词 末尾 添加 e( 比如 ceas 变 成 cease )， 以 整理 词尾 。 

(4) 删除 成 对 出 现 的 1。 


波 特 词 干 器 算法 非常 高 效 。 下 面 通过 实际 应 用 来 说 明 。 


from nltk.stem import PorterStemmer 







































































stemmer = PorterStemmer() 


stemmer.stem(words) 
































前 面 的 案例 展示 过 ,该 stemmer 的 输出 是 单词 的 词根 形式 。 这 可 能 是 个 真实 的 单词 ， 也 可 
能 不 是 ， 比 如 dancing 变 成 了 danci。 这 样 虽 无 伤 大 雅 ， 但 也 不 够 理想 ， 或 许可 以 做 得 更 好 。 


为 了 得 到 真实 单词 ， 需 要 运用 稍微 不 同 的 技术 一 一 “词性 还 原 ”。 词 性 还 原 判 断 单词 词根 的 
过 程 更 复杂 。 与 波 特 词 干 器 不 同 , 词性 还 原 对 不 同 的 词性 执行 不 同 的 标准 化 过 程 ， 而 且 会 寻找 单 
词 的 真正 词根 词 干 可 能 不 是 真实 单词 , 但 词根 一 定 是 。 词性 还 原 还 能 将 同义词 简化 成 词根 形式 。 
比如 词 干 提取 可 能 会 将 books 一 词 简化 为 book， 而 无 法 处 理 tome。 而 词性 还 原 能 够 将 二 者 都 简 
化 为 book。 









































每 个 输入 记号 的 POS 标记 是 一 项 必要 前 提 ， 前 面 已 经 实现 了 POS 标记 器 ， 可 以 直接 处 理 该 
过 程 的 输出 结果 了 。 


from nltk.stem import PorterStemmer, WordNetLemmatizer 
lemmatizer = WordNetLemmatizer () 

words = lemmatizer.lemmatize(words, pos = 'pos') 

这 样 的 输出 是 理想 的 形式 了 ( 见 表 6-5 )。 


表 6-5 


源 文 本 词 干 提 取 处 理 后 





The laughs you two heard were triggered by memories of his | ['The', 'laugh', 'two', 'hear', 'trigger', 'memory', 'high', 'fly', 
own high-flying exits off moving beasts 'exit', 'move', beast] 
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至 此 ,成 功 提取 了 输入 文本 数据 的 词 干 ， 大 幅 提 升 了 查找 算法 比如 许多 基于 词典 的 方法 ) 
在 处 理 该 数据 时 的 表现 ,也 删除 了 停止 词 , 用 正则 表达 式 方 法 给 一 些 噪 声 元 素 做 了 记号 ， 还 删除 
了 所 有 HTML 标签 。 文 本 数据 已 经 处 理 成 合理 可 用 的 状态 了 ， 但 还 需要 应 用 一 项 关键 技术 以 从 
文本 数据 中 生成 特征 。 具 体 而 言 ， 可 以 用 bagging 量化 词语 的 使 用 。 


继续 探索 吧 
2. bagging 和 随机 森林 


bagging 是 子 空间 方法 中 的 一 种 技术 。 该 方法 有 多 种 形式 ， 每 种 形式 都 有 单独 的 名 字 。 如 果 
要 从 数据 集中 随机 提取 子 集 ， 可 用 pasting; 如 果 要 从 可 放 回 的 数据 集中 抽样 ， 可 用 bagging; 如 
果 不 是 从 数据 集中 抽样 ， 而 是 选取 特征 的 子 集 ， 可 以 执行 “特征 bagging”; 如 果 既 从 数据 集中 抽 
样 ， 又 从 特征 中 抽样 ， 那 么 可 用 随机 补丁 技术 。 


基于 特征 的 技术 、 特 征 bagging 和 随机 补丁 方法 都 能 在 特定 场景 中 发 挥 巨大 作用 ， 尤 其 当 数 
据 维度 极 高 时 。 医 药 和 基因 领域 常常 包含 大 量 维度 极 高 的 数据 , 因此 基于 特征 的 方法 适用 于 这 些 
领域 。 


自然 语言 处 理 中 ， 最 常用 的 是 bagging。 在 语言 数据 领域 ， 将 需要 处 理 的 对 象 称 作 “ 词 袋 ” 
(bag of words )。 词 袋 法 是 一 种 文本 数据 准备 方法 ， 可 以 识别 数据 集中 所 有 不 同 的 词 (或 记号 )， 
并 计算 其 在 每 个 样本 中 出 现 的 频次 。 下 面 以 数据 集中 的 案例 来 说 明 ( 见 表 6-6 )。 











































































































表 6-6 
1D 日 期 评 论 
132 20120531031917Z [L_F', how', 'are', 'you', 'not', 'ded'] 
69 20120531173030Z [you, 'are, ‘living', proof, 'that', bath', 'salts', 'effect, 'thinking'] 


得 到 了 包含 13 个 元 素 的 词语 列表 ， 如 下 所 示 。 
[ 


myoun 
"not" 
"ded" 
"living" 
"proof" 
"that" 
"bath" 
"salts" 
"effect" 
"thinking" 
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使 用 该 列表 的 下 标 ， 可 以 对 前 面 每 个 句子 构建 出 含 13 个 元 素 的 向 量 。 向 量 值 为 遍历 整个 列 
表 后 每 个 词 在 数据 集中 对 应 句子 中 出 现 次 数 的 计数 。 根 据 之 前 的 示例 句子 以 及 根据 它们 构建 的 列 
表 ， 最 后 构建 出 了 表 6-7 所 示 的 词 袋 。 






































表 6-7 
ID 日 期 评 论 词 袋 
132 | 20120531031917Z _F how are you not ded [1 1 1 1 1 1 0, 0, 0, 0, 0, 0, 0] 
69 20120531173030Z you are living proof that bath salts effect thinking [0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1] 








这 就 是 词 袋 法 实现 的 核心 。 通 常 将 文本 中 的 语言 内 容 转换 成 数值 向 量 后 ,就 能 用 一 些 技术 灵 
活 地 对 文本 进行 分 类 了 。 


可 以 给 词语 赋 以 权重 ,通过 对 词语 加 权 调 整 向 量 值 , 可 强调 具有 象征 意义 或 有 助 于 分 类 的 词 。 
加 权 可 以 是 简单 的 掩 码 ， 比 如 指示 是 否 存在 的 二 元 掩 码 。 


二 元 掩 码 适用 于 某 些 词语 的 词 频 远 高 于 平均 水 平 的 情况 。 此 时 ,如 果 不 使 用 二 元 掩 码 ， 就 要 
进行 特定 的 标准 化 ( 例如 对 数 标 准 化 )。 但 词 频 往往 也 带 有 信息 ( 比如 表示 强调 )， 因 此 很 难 轻易 
决定 是 否 要 用 二 元 掩 码 。 


男 一 种 加 权 方 法 是 词 频 一 道 文档 频率 ( term frequency-inverse document frequency，TF-IDF )。 
该 方法 会 比较 单词 在 特定 句子 和 整个 数据 集中 的 词 频 , 如 果 单 词 在 给 定 样本 中 出 现 的 频率 高 于 在 
整个 语料库 中 出 现 的 频率 ， 那 么 该 词 的 权重 值 会 增 大 。 


TF-IDF 的 变 体 常用 于 文本 挖掘, 例如 搜索 引擎 。scikitlearm 提供 了 TF-IDF 实现 Tfigdfvectoriser， 
稍 后 将 用 该 技术 部 署 TF-IDF。 


前 面 介 绍 了 词 袋 法 的 理论 知识 ,以 及 在 构建 好 单词 向 量 后 可 采用 的 一 系列 后 续 技 巧 ,下面 探 
讨 如 何 实现 词 袋 法 。 词 袋 法 可 用 作 模 型 的 封装 器 。 通 常 子 空间 法 可 以 使 用 任何 基础 模型 (多 是 文 
持 向 量 机 和 线性 回归 模型 )， 但 词 袋 法 实现 常用 到 随机 森林 ， 并 且 往往 将 数据 准备 和 学 习 过 程 封 
装 到 一 个 简洁 的 脚本 中 。 下 面 先 实现 词 袋 法 ， 稍 后 实现 基于 随机 森林 的 分 类 算法 。 






















































































第 8 章 ( 该 章 将 介绍 可 构建 的 多 种 集成 方法 ) 将 详细 介绍 随机 森林 , 但 现在 
1 有 必要 说 明 ， 随机 森林 是 一 系列 决策 树 。 它 们 是 强大 的 集成 模型 ， 可 以 并 行 ( 产 
信人、 生 投 票 或 其 他 结果 ) 或 相互 提升 ( 和 迭代 地 添加 新 树 ， 对 解决 方案 中 现 有 树 集 不 能 
很 好 建 模 的 部 分 进行 建 模 )。 
由 于 随机 森林 强大 且 易 用 ， 所 以 常用 作 基 准 算法 。 
词 袋 法 的 实现 过 程 也 很 简单 。 首 先 初始 化 bagging 工具 ( 即 向 量化 器 )。 请 注意 ， 本 例 要 限 


制 特征 向 量 的 大 小 ， 以 节省 时 间 ， 因 为 每 篇 文本 必须 与 特征 列表 中 的 每 一 项 进行 比较 ， 所 以 在 运 
行 分 类 器 时 ， 该 过 程 会 比较 耗 时 。 
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from sklearn.feature extraction.text import TfidfVectorizer 


vectorizer = TfidfVectorizer(analyzer = "word", 
tokenizer = None, 
preprocessor = None, 
stop_words = None, 
max_features = 5000) 


然后 通过 fit_transform 用 向 量化 器 拟 合 单词 数据 。 将 数据 转化 成 特征 向 量 是 拟 合 过 程 的 
一 部 分 。 


train data_features = Vectorizer.fit_ transform(words) 


We 





train data_features = train data_ features.toarray () 


至 此 就 完成 了 文本 数据 的 预 处 理 。 前 面 用 一 系列 文本 挖掘 技术 处 理 了 该 数据 集 , 介绍 了 每 种 
技术 背后 的 理论 ， 并 用 一 些 强大 的 Python 脚本 处 理 了 测试 数据 集 。 下 面 探索 Kaggle 的 侮辱 检测 
问题 。 


6.2.3 测试 准备 好 的 数据 


完成 数据 集 的 初步 准备 后 ,下 面 尝 试 处 理 实际 问题 ， 以 检验 自身 水 平 。Impermium 的 说 明和 
数据 描述 如 下 。 


此 为 单 类 分 类 问题 ， 标 签 为 0 代表 中 立 评论 ， 为 1 代表 侮辱 性 言论 ( 不 
视 作 侮 原 )。 预 测 值 必须 落 于 [0, 1]， 其 中 1 代表 100% 确 定 该 评论 是 侮 奋 性 言 


口 寻找 大 型 博客 或 论坛 中 对 用 户 有 侮 压 倾向 的 言论 。 

口 而 不 是 针对 非 用 户 ( 比如 明星 、 公 众人 物 等 ) 的 侮 奋 言论 。 

口 侮 奋 评论 包括 赛 污 、 种 族 歧 视 或 其 他 攻击 性 语言 ， 但 这 种 情况 很 少 。 

口 涉及 蛮 渎 或 种 族 歧 视 ， 但 没有 确定 的 侮 情 对 象 的 言论 ， 不 算 侮 毕 言论 。 

口 言论 的 侮 奋 性 必须 很 明显 ， 而 非 不 易 察觉 。 

口 标签 中 存在 少量 未 清洗 掉 的 噪声 。 但 参赛 者 可 以 放心 ， 训 练 数据 和 测试 数据 中 
的 误差 不 超过 1%。 








将 (3 2 
不 将 “中 立 
2 


二 





参赛 者 还 应 知悉 ， 本 问题 可 能 会 出 现 严 重 的 过 度 拟 合 。 所 提供 的 数据 一 般 能 代表 整 
个 测试 数据 集 ,， 但 并 不 详尽 。Impermium 将 从 海量 样本 中 提取 部 分 未 公开 数据 ， 并 基于 
此 进行 最 终 评估 。 


这 段 说 明 很 不 错 ， 它 强调 的 两 点 值得 注意 。 需 要 的 评测 指标 是 AUC (area under the curve )， 
该 指标 对 “ 假 阳 性 ”和 “ 假 阴 性 ”结果 〈 即 “特异 性 ”和 “灵敏 性 ”) 都 很 敏感 。 


这 段 说 明明 确 表 示 ， 连 续 型 预测 值 比 二 元 (0/1 ) 输出 更 符合 要 求 。 这 一 点 在 使 用 AUC 时 尤 
为 重要 。 如 果 使 用 的 是 类 型 变量 值 ， 即 使 错误 预测 极 小 ， 也 会 导致 分 数 又 降 。 因 此 ， 不 应 使 用 
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RandomForestClassifier 算法 ， 而 应 使 用 基于 回归 的 RandomForestRegressor 算法 ， 然 
后 重新 将 结果 标准 化 到 0~1。 


实际 的 Kaggle 比赛 更 具 挑 战 性 ， 也 更 真实 ， 那 里 没有 现成 的 正确 解决 方案 。 第 8 章 将 介绍 
顶级 数据 科学 家 如 何 应 对 此 类 场景 并 取得 成 功 。 这 里 将 利用 测试 集 评测 模型 的 表现 。 注 意 , 这 种 
优势 也 伴随 着 风险 ， 如 果 出 现 过 度 拟 合 的 问题 ， 则 必须 遵守 规则 ， 确 保 并 没有 过 度 拟 合 测 试 集 。 
第 8 章 将 讨论 实际 参赛 者 的 成 果 。 但 可 以 想见 ， 名列前茅 的 参赛 者 会 有 很 多 失败 的 尝试 ， 
此 应 设 定 一 个 基准 ， 以 帮助 确定 模型 是 否 在 朝 正确 的 方向 发 展 。 
具体 而 言 ， 个 人 (测试 ) 排行 榜 上 排名 前 14 的 参赛 者 的 AUC 都 超过 了 0.8， 第 一 名 更 是 达 
到 了 惊人 的 0.84， 而 50 支 团 队 多 半分 数 超过 了 0.77。 


如 前 所 述 ， 先 构建 随机 森林 回归 模型 。 



































随机 森林 是 决策 树 的 集成 。 
单独 一 棵 决策 树 可 能 会 出 现 方差 或 偏差 问题 , 而 随机 森林 会 对 多 个 并 行 试验 
” ”进行 加 权 平 均 ， 以 均衡 各 种 建 模 的 结果 。 
随机 森林 易于 使 用 。 对 于 新 的 数据 问题 ， 可 考虑 先 应 用 该 方法 。 在 前 期 对 数 
一 据 应 用 随机 森林 分 类 器 ， 有 助 于 大 致 了 解 最 初 的 分 类 精度 的 基准 水 平 ， 也 有 助 于 
掌握 分 类 边界 的 形成 过 程 。 在 处 理 数据 集 的 初级 阶段 ， 这 样 的 洞悉 非常 重要 。 
借助 Scikit-learn 的 RandomForestClassifier, 可 以 轻松 应 用 随机 森林 
算法 。 


了 





第 一 次 将 用 100 棵 树 ， 虽 然 增 加 树 的 数量 会 提升 分 类 精度 ,但 耗 时 也 更 久 。 通 常 构建 模型 的 
初期 最 好 进行 快速 迭代 。 重 复 运行 模型 的 速度 提高 ， 有 助 于 快速 了 解 并 改进 模型 结果 。 
首先 ， 初 始 化 模型 并 进行 训练 。 


trollspotter = RandomForestRegtressor ( 
n_estimators = 100, max_depth = 10, max_features = 1000) 








中 

















Tl 1SLE" 

trollspotted = trollspotter.fit(train data_ features, y) 

然后 将 模型 应 用 于 测试 数据 ， 以 预测 每 个 测试 实例 的 分 数 。 再 用 简单 的 拉 伸 技术 对 这 些 分 数 
进行 标准 化 。 

moretrolls = pd.read csv('moretrolls.csv', header=True, 


names=['y', 'date', 'Comment', 'Usage']) 
moretrolls["Words"] = moretrolls["Comment"] .apply (cleaner) 








y = moretrolls["y"] 
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并 





test_data_features = vectorizer.fit transform(moretrolls["Words"]) 
test_data_features = test_data_ features.toarray () 


pred = pred.predict (test_data_ features) 


pred = (pred - pred.min())/(pred.max() - pred.min()) 
最 后 ， 应 用 roc_auc 水 数 来 计算 模型 的 AUC。 
fpr, tpr, _ = roc_ curvel(ly, pred) 


roc_auc = auc(fpr, tpr) 
print ("Random Forest benchmark AUC score, 100 estimators") 
print (roc_auc) 


可 以 看 到 ， 最 后 的 结果 远 未 达到 要 求 。 


Random Forest benchmark AUC score, 100 estimators 
0.537894912105 


合理 配置 以 下 选项 有 助 于 提高 模型 质量 。 


口 处 理 输入 数据 的 方法 ( 包括 数据 预 处 理 阶段 和 数据 标准 化 阶段 )。 
口 随机 森林 中 的 评估 需 数 目 。 

口 所 部 署 的 分 类 器 类 型 。 

口 实现 的 词 袋 法 的 属性 ( 尤其 是 词语 的 最 大 数量 )。 

口 n-gram 标记 需 的 结构 。 








| 



































数值 ( 该 数值 在 本 例 中 为 1000 )。 


Random Forest benchmark AUC score, 1000 estimators 
0.546439310772 








结果 比 之 前 稍 好 ,但 提升 幅度 并 不 明显 ， 离 目标 依旧 其 远 。 下 面 更 进一步 ， 建 立 另 一 个 分 类 








器 一 一 文 持 向 量 机 。 首 先 建立 自己 的 支持 向 量 机 对 象 。 


class SVM(object): 


def __ init_ _(self, texts, classes, nlpdict=None): 


self.svm = svm.LinearSVvC(C=1000, class_weight='auto') 
if nlpdict: 

self.dictionary = nlpdict 
else: 

self.dictionary = NLPDict (texts=texts) 
self._train(texts, classes) 


def _train(self, texts, classes): 
vectors = self.dictionary.feature vectors (texts) 
self.svm.fit (vectors, classes) 


再 次 尝试 时 , 调整 词 袋 法 实现 的 词语 规模 ,将 词语 规模 从 随机 设置 的 5000 提升 到 8000 左右 ， 
且 不 只 选择 一 个 值 ， 而 是 在 一 个 范围 内 运行 , 看 看 能 学 到 什么 。 树 的 数量 也 将 提升 至 更 合理 的 
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def classify(self, texts): 
vectors = self.dictionary.feature vectors (texts) 
predictions = self.svm.decision_ functionl(vectors) 
predictions p.transpose (predictions) [0:len(predictions)] 
predictions = predictions / 2 + 0.5 
predictions[predictions > 1] 二 
predictions[predictions < 0] 0 
return predictions 


虽然 SVM 还 达 不 到 人 类 评估 水 准 ， 但 作为 一 种 算法 ， 它 运行 高 效 ， 能 迭代 地 将 数据 集 转化 
二 从 而 在 最 优美 边界 上 构造 复杂 的 超 平面 。 因此 , 分 类 质量 的 提升 也 在 意料 之 中 。 


SVM AUC score 
0.625245653817 


想 了 解 结果 如 何 , 可 以 尝试 用 不 同 的 方法 对 性 能 进行 测度 。 这 里 要 特别 关注 模型 的 标签 预 
i 目标 的 差异 ， 以 观察 模型 是 否 在 特定 种 类 的 输入 上 更 容易 失败 。 


前 面 做 了 不 少 预测 。 虽 然 还 有 不 少 技术 可 用 , 但 不 妨 考虑 将 更 复杂 的 集成 模型 作为 一 种 可 靠 
选择 。 本 例 利 用 多 个 模型 ( 而 非 单 一 模型 ) 能 取得 每 个 模型 的 相对 优势 。 若 想 试 试 集成 模型 在 本 
例 上 的 效果 ， 可 以 运行 score_trolls_blendedensemble.py 脚本 。 


| 受 该 集成 模型 是 混合 的 (也 称 “ 推 苦 的 ”)， 第 8 章 4 
一 原理 。 


将 结果 绘制 成 图 像 ， 可 以 看 到 性 能 有 所 提升 ,但 未 达到 期 望 ( 见 图 6-3 )。 
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深入 介绍 该 集成 模型 的 | 





ROC 曲 线 


-一 ROC 曲 线 (面积 =0.57) 
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图 6-3 
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显然 ， 构 建 模 型 时 出 了 一 些 问题 ， 但 现在 无 须 再 构建 一 个 更 成 熟 的 模型 ， 而 应 该 关注 特征 ， 
并 扩展 特征 集 。 


Kaggle 大 赛 的 参赛 者 身上 有 一 些 东西 值得 学 习 。 总体 而 言 , 排名 靠 前 的 模型 往往 发 掘 了 输入 
数据 的 所 有 特征 。Kaggle 大 赛 中 对 该 数据 集 进行 分 类 的 第 二 名 是 tuzzeg， 他 在 https://github.com/ 
tuzzeg/detect_insults 提供 了 可 用 的 代码 库 。 


相 比 于 我 们 的 模型 , tuzzeg 的 模型 更 加 细致 全 面 。 除了 用 POS 标记 构造 的 基础 特征 外 , tuzzeg 
还 应 用 了 基于 POS 的 二 元 标记 、 三 元 标记 ， 等 等 (通过 在 n 个 单词 上 滑动 窗口 构建 )、tuzzeg 总 
共用 到 了 七 元 标记 ， 构 造 了 长 度 为 2、3、4 的 n-gram。 


此 外 ，tuzzeg 还 构造 了 两 种 复合 模型 : 句子 层次 模型 和 排序 模型 ， 每 种 都 整合 在 了 其 解决 方 
案 之 中 。 排 序 模型 将 数据 中 的 实例 转换 成 按 序 排列 的 连续 值 ， 进 一 步 揭示 了 问题 的 本 质 。 

与 此 同时 ，tuzzeg 那 极 具 创 新 性 的 句子 层次 模型 专门 在 训练 数据 中 的 单个 句子 实例 上 训练 。 
在 预测 测试 数据 时 ， 他 将 实例 分 割 成 句子 ,单独 进行 评估 ,然后 只 选取 句子 中 的 最 高 分 数 。 在 自 
然 语言 中 ， 侮 辱 性 言论 往往 集中 在 一 段 话 中 的 某 部 分 ，tuzzeg 这 样 做 就 是 为 了 适应 这 一 点 。 

tuzzeg 的 模型 构造 了 超过 100 个 特征 组 〈 一 个 基于 词 干 的 二 元 标记 就 是 一 个 特征 组 ， 这 里 特 
征 组 指 通过 二 元 标记 过 程 产 生 的 特征 向 量 )， 其 中 最 重要 的 几 个 组 〈 按 影响 排序 ) 如 下 所 示 。 

























































































stem subsequence based 0.66 
stem based (unigrams, bigrams) 0.18 
char ngrams based (sentence) 0.07 
char ngrams based 0.04 
all syntax 0.006 
all language models 0.004 
all mixed 0.002 


结果 非常 有 趣 ,可 以 看 出 , 一 些 现在 并 未 使 用 的 衍生 特征 对 生成 可 用 解决 方案 非常 重要 , 尤 
其 是 基于 序列 的 特征 只 是 针对 最 初 特 征集 的 简单 平移 ， 因 此 易于 添加 额外 特征 。 


def subseq2(n, xs): 
1] = len(xs) 
return ['%s %s' % (xs[i], xs[j]) for i in xrange(1-1) 
for j in xrange(i+1l, i+n+1) If j < 1] 











def getSubseq2 (seqF, n): 
def f(row): 
seq = SedqF (row) 
return set(seq + subsegq2(n, seq)) 
return f 


Subseq2test = getSubseq2 (line, 2) 


该 方法 效果 极 佳 。 建议 试用 一 下 tuzzeg 的 解决 方案 , 也 可 以 看 看 该 项 目 库 中 的 score_trolls_ 
withsubseq.py 脚本 ， 它 整 合 了 强大 的 额外 特征 。 
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添加 额外 特征 后 ，AUC 提升 显著 ( 见 图 6-4 )。 











ROC 曲 线 


-一 “ROC 曲 线 (面积 =0.83) 











假 阳 率 








图 6-4 


运行 这 段 代 码 ，AUC 达到 了 0.834， 结 果 很 不 错 。 这 体现 了 考虑 周全 又 充满 创新 的 特征 工程 
的 强大 。 虽 然 本 章 生成 的 具体 特征 在 其 他 场景 中 也 很 有 用 , 但 特定 的 假设 ( 比如 评论 包含 多 个 名 
子 ， 充 满 敌意 的 言论 只 出 现在 特定 几 个 句子 中 ) 能 产生 非常 有 效 的 特征 。 

本 章 基 本 都 在 用 测试 数据 检验 推 新 ,然而 现实 中 难 有 这 样 的 条 件 。 尽 管 我 们 没有 投机 取 巧 地 
私自 查看 测试 数据 ， 但 了 解 排行 榜 上 的 得 分 情况 有 助 于 我 们 确立 正确 目标 。 第 8 章 将 用 更 严谨 、 
更 实际 的 方式 应 对 另 一 个 棘手 的 Kaggle 问题 ， 也 将 深入 探讨 集成 模型 。 























6.3 扩展 阅读 


本 章 开头 的 引言 来 自 Kaggle 博客 No Free Hunch (值得 阅读 )， 详 见 http://blog.kaggle.com/ 
2014/08/01/learning-from-the-best/。 


探讨 自然 语言 处 理 任务 的 资源 有 很 多 ， 下 面 这 篇 文章 谈 到 了 8 个 方面 ， 非 常 详尽 : 
http://textminingonline.com/dive-into-nltk-part-i-getting-started-with-nltk。 














如 果 想 动手 实践 ， 不 妨 试 试 Kaggle 的 Knowledge NLP 任务 ( https:/www.kaggle.com/c/ 
word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words )， 该 任务 非常 适合 试验 本 章 提 及 的 
技术 。 


本 章 提 到 的 Kaggle 大 赛 可 参见 https:/www.kaggle.com/c/detecting-insults-in-social-commentary。 
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要 想 深入 了 解 ROC 曲线 和 AUC 测度 , 可 以 阅读 Tom Fawcett 的 论文 “An introduction to ROC 
analysis” 。 


6.4 小结 





本 章 介 绍 了 许多 实用 且 适 用 性 强 的 技术 , 并 通过 一 系列 严谨 的 步骤 , 将 凌乱 且 复 杂 的 文本 数 
据 转化 成 了 大 量 高 效 特 征 。 首 先 应 用 了 一 些 数据 清洗 技术 , 噜 除了 大 量 噪声 和 问题 元 素 ， 然 后 用 
POS 标记 和 词 袋 法 将 文本 转化 成 了 特征 。 其 间 介 绍 了 一 系列 应 用 广泛 且 强 大 的 技术 , 可 解决 许多 
自然 语言 处 理 的 难题 。 

















试验 了 多 种 单个 模型 和 集成 模型 后 可 得 知 ， 当 更 智能 的 算法 无 法 产生 良好 的 结果 时 , 彻底 且 
富有 创造 性 的 特征 工程 可 以 显著 提升 模型 性 能 。 














特征 工程 1 











前 面 介绍 了 特征 工程 的 重要 性 。 上 一 章 探 讨 了 能 高 效 将 原始 数据 转化 为 特征 并 进行 特征 选择 
的 技术 ， 应 用 高 级 机 器 学 习 算法 能 高 效 处 理 这 些 特 征 。 


混乱 的 输入 会 导致 混乱 的 输出 ,这 名 篇 言 描述 的 情况 在 现实 中 时 有 发 生 。 前 儿 章 讲 过 , 图像 
识别 和 自然 语言 处 理 任务 都 要 求 数据 经 过 充分 处 理 。 本 章 将 接触 一 种 更 普遍 的 数据 : 从 实际 应 用 
中 收集 的 量化 数据 或 类 型 数据 。 


本 章 将 处 理 的 数据 在 许多 场景 中 都 很 常见 ， 比 如 森林 中 的 传感器 、 游 戏 机 或 金融 交易 捕获 的 
遥测 数据 、 煤 矿 地 测 信息 ， 以 及 研究 过 程 中 收集 的 生物 测定 数据 。 不 论 怎样 ,核心 原 则 和 技术 都 
是 不 变 的 。 

本 章 将 介绍 如 何 审核 并 清洗 数据 、 如 何 提升 数据 质量 、 如 何 将 数据 转换 成 适 于 机 顺 学 习 的 形 
式 ， 以 及 如 何 创造 性 地 增强 数据 。 

总 体 而 言 ， 本 章 将 讨论 如 下 概念 。 

口 创建 特征 集 的 不 同方 法 ， 以 及 特征 工程 的 局 限 性 。 

口 如 何 用 各 种 技术 增强 并 提升 初始 数据 集 。 
口 如 何 运 用 领域 知识 来 选择 有 效 措施 ， 以 转换 现 有 数据 并 提高 其 整洁 度 。 

口 如 何 测试 单个 特征 值 和 特征 组 合 值 ， 只 保留 需要 的 特征 。 

首先 详 述 基本 概念 , 本 章 末尾 将 进行 多 次 迭代 试验 , 并 通过 专门 的 测试 来 展示 所 构建 特征 的 
益处 。 


































































































7.2 创建 特征 集 
事 关机 器 学 习 成 功 的 最 重要 因素 是 输入 数据 的 质量 。 如 果 数 据 引 人 误解 、 标 准 化 不 当 或 信息 
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量 不 足 ， 模 型 再 好 也 无 法 达到 在 准备 充分 的 数据 上 运行 的 效果 。 
有 时 可 以 使 用 特定 数据 集 , 或 者 访问 有 用 而 多 样 化 的 大 型 数据 源 。 然 后 恰当 运用 知识 和 技能 ， 
用 这 些 数 据 构 造 出 有 用 的 特征 集 。 
总 的 说 来 ,掌握 如 何 构建 良好 的 特征 集 非常 有 用 , 保证 了 我 们 可 以 审核 和 评估 任何 新 数据 集 。 
本 章 将 介绍 一 种 设计 过 程 和 一 套 技术 ， 展 示 如 何 轻松 地 创建 有 用 的 特征 集 。 
因此 , 下 面 首先 探讨 一 些 常 用 技术 ,可 用 这 些 技术 扩展 或 转换 现 有 特征 ， 以 及 为 模型 创建 大 
量 有 用 的 参数 。 
如 前 所 述 , 特征 工程 技术 的 高 效 使 用 存在 限制 , 必须 留意 经 过 特征 工程 处 理 的 数据 集 
风险 。 
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7.2.1 为 机 器 学 习 应 用 构建 特征 
前 面 讲 过 如 何 处 理 数 据 质量 问题 ， 以 及 如 何 创造 性 地 借助 已 有 数据 的 维度 连接 外 部 数据 。 


充分 理解 了 手头 数据 并 检查 过 其 质量 后 ， 还 需要 做 大 量 工作 ， 以 便 后 续 根 据 数据 构建 有 效 
模型 。 


1. 用 标准 化 技术 提升 特征 的 可 学 习性 

直接 将 未 处 理 过 的 数据 输入 机 器 学 习 模 型 的 主要 问题 是 , 算法 对 不 同 变量 的 相对 大 小 非常 敏 
感 。 如 果 数 据 集中 存在 值 域 不 同 的 多 个 参数 ， 有 些 算 法 会 认为 方差 更 大 的 变量 会 比值 更 小 、 方 差 
更 小 的 变量 更 有 意义 。 

解决 该 潜在 问题 的 关键 是 再 标准 化 (也 称 “ 再 缩放 ”)， 即 调整 参数 值 的 相对 大 小 ， 同 时 保持 
每 个 参数 值 的 初始 排序 ( 即 单调 转化 )。 

如 果 训 练 前 就 对 输入 数据 进行 标准 化 , 可 以 考虑 使 用 梯度 下 降 算法 ( 绝 大 多 数 深 度 学 习 算 法 
会 涉及 )。 下 面 通 过 一 些 图 说 明 其 原因 。 给 定 的 一 系列 训练 步骤 如 图 7-1 所 示 。 


=> 
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应 用 于 未 经 标准 化 的 数据 时 ,这些 训 练 步 又 可 能 不 会 有 效 收 剑 如 图 7-2 中 左边 的 例子 所 示 )。 


SS 


















图 7-2 


如 果 每 个 参数 的 取 值 范围 都 不 同 , 那么 训练 模型 的 参数 空间 会 高 度 扭曲 且 极 其 复杂 。 该 空间 
越 复 杂 ， 在 其 中 训练 模型 的 难度 也 就 越 大 。 这 可 以 用 一 个 比喻 来 描述 ( 对 此 的 完整 解释 ， 参见 
7.4 节 的 参考 说 明 ), 不 妨 将 训练 过 程 中 的 梯度 下 降 模 型 想象 成 大 理 石 从 斜坡 上 深 下 。 这些 大 理 石 
可 能 会 在 斜坡 上 ( 即 模型 的 目标 函数 所 创建 的 表面 ,其 中 目标 函数 指 学 习 函 数 , 模型 要 训练 将 其 
输出 最 小 化 ) 的 鞍点 或 其 他 复杂 几何 结构 处 卡 住 。 但 对 标准 化 后 的 数据 而 言 ,该 平面 的 形状 较为 
规则 ， 训 练 过 程 也 就 更 高 效 。 























典型 示例 是 0~1 的 线性 再 标准 化 ,通过 该 方法 ,参数 的 最 大 值 将 再 标准 化 为 1， 最 小 值 为 0， 
中 间 值 则 落 在 0~1， 具 体 指 其 原始 值 相 对 于 最 值 ( 最 大 值 和 最 小 值 ) 的 比例 。 按 照 该 转化 规则 ， 
回 量 [0, 10, 25, 20, 18] 将 变 为 [0, 0.4, 1, 0.8, 0.72]。 





这 种 转化 的 特别 之 处 是 , 再 标准 化 后 , 原始 形式 下 不 同 大 小 的 多 个 数据 点 将 落 在 同一 个 值 域 
范围 内 ， 以 便 机 带 学 习 算法 在 更 有 意义 的 信息 上 进行 训练 。 

这 是 最 简单 的 再 标准 化 方法 , 一 些 非 线性 标准 化 方法 在 适用 场景 中 会 效果 更 佳 ， 比 如 平方 标 
准 化 、 平 方 根 标准 化 以 及 ( 可 能 最 常用 的 ) 对 数 标准 化 。 

参数 值 的 对 数 标准 化 在 物理 学 或 其 他 经 常 受到 需 次 法 则 ( 比如 x 的 线性 增长 会 引起 y 的 指数 
增长 ) 影响 的 数据 中 很 常见 。 


与 线性 再 标准 化 不 同 , 对 数 标准 化 调整 的 是 数据 实例 的 相对 间距 。 这 是 一 把 双 刃 剑 : 一 方面 ， 
对 数 标准 化 能 很 好 地 处 理 离 群 点 。 例 如 图 7-3 中 的 概括 统计 量 描述 了 一 个 虚构 群体 中 的 个 人 净 
资产 。 
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统 计 MAR 

最 小 值 1 
下 四 分 位 数 42.5 
均值 3205433.343 
中 位 数 600 
上 四 分 位 数 1358 
最 大 值 10000000000 

图 7-3 








进行 再 标准 化 前 ,群体 分 布 严重 偏向 净 资 产值 异常 的 个 体 。 每 一 等 分 的 实例 分 布 如 图 74 所 示 。 
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图 7-4 
进行 对 数 标准 化 后 ， 分 布 看 起 来 合理 多 了 ( 见 图 7-5 )。 
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可 以 进一步 执行 标准 化 ， 从 而 更 巧妙 地 拉 伸 该 分 布 的 上 半 部 分 。 在 本 例 中 ， 以 10 为 底 的 对 
数 标准 化 能 够 极 大 地 降低 这 些 离 群 值 的 影响 ， 既 保留 了 这 些 离 群 点 ， 又 不 会 丢失 底部 的 细节 。 


如 上 所 述 , 需要 注意 ,在 某 些 情况 下 ， 比 较 接 近 的 实例 之 间 也 会 得 到 这 种 增强 ,这 可 能 会 使 
一 些 参数 值 的 噪声 增 大 ,引起 误导 一 一 这 些 值 之 间 差距 较 大 。 这 种 做 法 不 会 导致 对 数 标准 化 对 离 
群 点 的 处 理 产 生 负 面 影响 ， 但 会 在 初始 值 非常 接近 且 值 比较 小 的 实例 之 间 产 生 负 面 影响 。 


通过 对 数 标准 化 引入 非 线 性 而 产生 的 问题 需要 特别 注意 , 而 且 通 常 非 线性 标准 化 只 适用 于 我 
们 了 解 且 存在 非 线性 关系 或 趋势 的 变量 。 


2. 构造 高 效 的 衍生 变量 


再 标准 化 是 许多 机 天 学 习 应 用 〈 比如 大 多 数 神经 网 络 ) 的 预 处 理 环 广 的 常规 部 分 。 除 了 再 标 
准 化 , 还 有 其 他 许多 数据 准备 技术 能 够 有 效 地 减少 模型 内 的 输入 参数 ， 提 升 模型 性 能 。 其 中 最 常 
用 的 就 是 衍生 度量 ， 该 技术 能 综合 多 个 已 有 数据 点 并 将 其 表示 为 简单 测度 。 


这 类 衍生 测度 十 分 常见 ， 比 如 加 速度 ( 速度 随 时 间 变 动 的 函数 )、 身 体质 量 指数 ( 身高 、 体 
重 和 年 龄 的 函数 ) 和 用 于 评测 股票 的 市 僵 率 (price-earnings ratio，P/E )。 本 质 上 来 说 ， 几 乎 所 有 
衍生 分 数 或 复杂 测度 都 是 多 种 成 分 构成 的 联合 得 分 。 


比较 常见 的 数据 集 往 往 有 很 多 知名 的 测度 。 即 使 在 相对 知名 的 领域 , 将 已 有 数据 与 领域 知识 
相 结 合 都 会 得 到 一 些 非 常 有 效 的 衍生 测度 和 数据 转换 技巧 。 衍 生 方法 的 一 些 相关 概念 如 下 所 示 。 


口 两 个 变量 的 组 合 : 对 参数 n 进行 乘除 或 标准 化 ， 并 作为 参数 m 的 函数 。 

口 随时 间 变 化 的 度量 : 典型 的 度量 示例 是 加 速度 或 7D 变化 。 更 复杂 的 情况 下 ， 比 起 直接 处 

理 当 前 值 和 过 去 值 ， 潜 在 的 时 间 序 列 函 数 的 斜率 是 更 有 用 的 参数 。 

口 基线 的 减法 : 用 基准 预期 ( 一 种 直接 预期 ， 比 如 基线 流失 率 ) 按 照 该 基线 重新 调整 参数 ， 
这 能 够 令 同 一 个 变量 暴露 出 更 多 信息 。 在 用 户 流失 案例 中 ， 实 际 与 预期 的 偏差 可 以 用 一 
个 参数 来 描述 。 同 样 ， 在 股票 交易 中 ， 可 以 根据 开盘 价 研究 收盘 价 。 

口 标准 化 : 如 上 例 所 示 ， 有 的 参数 值 是 根据 其 他 参数 值 或 基线 来 进行 标准 化 的 ， 因 此 可 以 

根据 其 他 变量 的 基本 性 质 进 行动 态 计算 。 例 如 交易 失败 率 ， 除 了 可 以 视 作 原始 ( 或 再 标 

准 化 ) 统计 ， 往 往 还 需要 根据 未 完成 交易 量 进行 标准 化 。 


以 上 不 同 元 素 的 创造 性 重组 可 以 产生 非常 好 的 效果 。 例如 有 时 描述 一 段 时 间 内 客户 互动 斜率 
《下降 或 上 升 ) 的 参数 必须 以 该 顾客 是 否 曾经 频繁 互动 或 极 少 互动 为 条 件 ， 因 为 在 不 同 背景 下 ， 
互动 轻微 下 降 的 含义 可 能 不 同 。 高 效 地 、 创 造 性 地 构造 特征 集 来 捕捉 给 定 领域 内 的 细微 之 处 ， 
数据 科学 家 的 职责 所 在 。 


前 面 仅 探 讨 了 数值 型 数据 ， 而 有 用 的 数据 往往 是 非 数 值 型 的 ， 比 如 编号 或 类 型 数据 。 因 此 ， 
下 面 将 介绍 一 些 将 非 数值 型 特征 高 效 转化 为 可 用 参数 的 技术 。 
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3. 转换 非 数值 型 特征 


非 数 值 型 特征 的 处 理 是 一 个 普遍 问题 ， 该 问题 有 时 很 坏 手 ， 并 且 往 往 没 有 通用 的 解决 方案 。 
有 价值 的 信息 往往 编码 在 非 数 值 型 的 简写 值 中 。 例 如 在 股票 交易 中 ， 股 票 本 身 (如 AAPL ) 和 买 
卖 双方 的 身份 都 是 我 们 感 兴趣 且 与 问题 息息相关 的 信息 。 更 进一步 , 我 们 可 能 希望 一 些 股票 的 交 
易 和 其 他 股票 出 现 差异 ， 哪 怕 是 在 同一 行业 ， 企 业内 部 的 组 织 设 置 上 的 差异 ( 这 种 情况 很 常见 ) 
也 会 包含 重要 信息 。 

































































很 多 时 候 , 构建 一 个 或 多 个 聚合 度量 是 常用 方法 。 如 前 所 述 , 一 个 典型 示例 是 基于 可 能 的 发 
生 次 数 构建 衍生 测度 〈 比如 两 个 时 间 窗 口 之 间 的 次 数 变 化 )。 














构建 概括 统计 量 或 减少 数据 集 的 行 数 ,会 降低 模型 本 可 以 学 习 到 的 信息 量 , 从 而 带 来 风险 ( 可 
能 导致 模型 更 加 脆弱 ， 并 引起 过 度 拟 合 )。 因 此 ， 广 泛 聚 合 和 减少 输入 数据 往往 不 可 取 。 这 一 点 
对 深度 学 习 技 术 而 言 更 是 如 此 ， 比 如 第 2 章 到 第 4 章 探讨 和 使 用 的 算法 。 

















因此 , 不 要 广泛 使 用 基于 聚合 的 方法 ， 而 要 选择 将 字符 型 数据 转化 为 数值 型 数据 的 方法 。 另 
一 类 常用 的 技术 是 编码 , 其 中 最 常用 的 编码 方法 是 独 热 编码 , 即 把 类 型 响应 变量 ( 比如 年 龄 组 别 ) 
转化 成 二 元 变量 ， 其 中 每 种 响应 选项 (如 18~30 岁 ) 都 由 其 独 有 的 二 元 变量 表示 。 图 7-6 展现 得 
更 直观 。 
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图 7-6 


编码 后 ， 由 类 别 型 变量 和 连续 型 变量 构成 的 数据 集 就 变 成 了 二 元 变量 的 张 量 ( 见 图 7-7 )。 

















年 龄 22 ”年龄 23 ”年龄 25 年龄 34 年龄 41 女 























116 第 7 章 ”特征 工程 I 











这 种 表示 法 优势 明显 , 无 须 聚 合 或 冒 着 数据 信息 量 减 少 的 风险 , 就 挖 握 到 数据 所 包含 的 重要 
标签 信息 。 此 外 , 独 热 编码 还 能 将 编码 后 变量 的 特定 编号 分 割 成 独立 的 特征 ， 即 可 以 或 多 或 少 地 
识别 出 特定 变量 的 有 意义 代码 ， 而 只 保留 重要 值 。 


男 一 种 主要 用 于 文本 代码 的 有 效 技术 是 散 列 法 。 简 而 言 之 , 散 列 是 将 数据 转化 成 数值 表示 的 
函数 。 很 多 人 熟悉 这 个 概念 ， 因 为 它 常 用 于 编码 敏感 参数 ， 以 及 概括 庞大 的 数据 。 但 为 了 最 大 限 
度 地 利用 散 列 法 ， 必 须 理 解 该 方法 的 原理 和 作用 。 


散 列 法 可 以 将 文本 短语 转化 成 数值 ,并 作为 该 短语 的 标识 符 。 虽 然 散 列 法 类 型 多 样 , 应 用 广 
泛 , 但 在 文本 特征 处 理 领域 ， 简 单 的 散 列 法 也 能 直截了当 地 将 关键 字 和 编号 转化 成 数值 参数 , 方 
便 高 效 建 模 。 


一 种 简单 的 散 列 法 可 以 将 每 个 字母 字符 转换 成 对 应 的 数字 。a 变 成 1、b 变 成 2， 以 此 类 推 。 
对 单词 或 短语 对 应 的 值 求 和 可 以 生成 散 列 值 。 例 如 短语 cat gifts 就 可 以 按照 以 下 方法 进行 转换 。 

Cat: 3+1+20 

Gifs: 7 +9+6+19 

Total: 65 

该 散 列 法 非常 糟糕 ， 原 因 有 二 ( 先 不 考虑 输入 数据 中 包含 垃圾 词 的 情况 )。 其 一 ,没有 限制 
输出 数 。 散 列 法 的 关键 是 降 维 ， 因 此 必须 对 其 可 能 的 输出 数 加 以 限制 。 大 部 分 散 列 法 会 限制 其 输 
出 的 数字 范围 ， 因 此 选择 散 列 法 时 需要 考虑 模型 包含 的 特征 数量 。 



































































































































| 通常 的 做 法 是 将 2 的 畦 次 作为 散 列 法 范围 ， 在 散 列 过 程 中 逐 位 进行 运算 来 ] 
一 加速。 


其 二 ,这 种 散 列 法 对 单词 转换 的 影响 不 大 ,反而 很 小 。 如 果 将 cat 变 成 bat， 那么 散 列 法 的 输 
出 也 应 该 明显 改变 ， 而 实际 上 只 是 数值 变化 了 1 而 已 〈 变 成 了 64 )。 总 体 而 言 ， 好 的 散 列 函数 应 
该 在 输入 文本 出 现 极 小 改变 时 ,输出 发 生 较 大 变化 。 部 分 原因 是 , 语言 结构 非常 一 致 ( 因此 分 数 
也 会 接近 ), 但 给 定 结构 内 略 有 不 同 的 名 词 和 动词 组 合 会 呈现 截然 不 同 的 含义 。 例 如 the cat sat on 
the mat ( 猫 坐 在 垫子 上 ) 和 the car sat on the cat ( 车 在 猫 上 ) 意思 就 很 不 同 。 


介绍 过 了 散 列 法 ,下 面 详细 介绍 散 列 的 一 些 技巧 。 如果 将 每 个 词 都 转化 成 散 列 数值 代码 ， 就 
会 出 现 大 量 的 散 列 磁 撞 ， 即 两 个 词 的 散 列 值 相同 。 这 当然 是 很 糟糕 的 。 


Zipf 分 布 能 描述 不 同 词语 的 词 频 分 布 。 它 将 频率 排 第 n 名 的 词语 的 概率 近似 地 表示 为 P(n) = 
0.1n, 其 中 最 大 不 超过 1000 ( Zipf 定律 ), 这 确保 了 每 个 词 比 前 一 个 词 频率 更 低 。 当 n 大 于 1000， 
词语 就 会 变 得 十 分 模糊 ， 这 时 数据 集中 很 难 存 在 两 个 散 列 值 相同 的 词 。 


此 外 , 好 的 散 列 函数 会 限制 值 域 ， 而 且 极 易 受到 输入 数据 微小 变化 的 影响 。 这 些 性 质 令 散 列 
撞 在 很 大 程度 上 与 词语 使 用 频率 相 分 离 。 
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Zipf 定律 和 好 的 散 列 函数 ( 即 散 列 碰撞 概率 与 词语 使 用 频率 相 分离 的 散 列 函数 ) 的 概念 意 
着 散 列 碰 撞 的 概率 极 小 ， 而 当 发 生 散 列 碰撞 时 ， 这 两 个 词 都 极 有 可 能 是 频繁 使 用 的 词 。 

这 赋予 了 散 列 法 一 个 特殊 性 质 。 与 不 使 用 散 列 法 的 词 袋 特征 进行 的 训练 相 比 , 散 列 法 能 在 不 
降低 模型 性 能 的 基础 上 , 更 大 幅度 地 降低 文本 输入 数据 的 维度 ( 从 成 千 上 万 个 自然 出 现 的 词语 减 
少 到 几 百 个 ， 甚 至 更 少 )。 

恰当 应 用 散 列 法 ， 可 以 实现 许多 妙用 ， 其 中 包括 增强 之 前 讲 过 的 技术 〈 特别 是 词 袋 法 ) 不 
同 散 列 法 的 参考 资料 参见 7.4 节 。 









































7.2.2 ”运用 特征 选择 技术 


前 面 介绍 了 构造 特征 的 许多 技术 , 以 及 创造 性 的 特征 工程 的 潜力 , 下 面 可 以 把 已 有 特征 改造 
成 更 有 效 的 变 体 了 。 运 用 这 些 特 征 工程 技巧 时 ， 可 能 会 因为 创建 过 多 衍生 特征 而 变 得 难以 管理 。 


不 加 限制 地 添加 特征 会 令 模型 变 得 脆弱 ,还 会 令 某 些 模型 出 现 过 度 拟 合 。 这 与 想 模拟 的 趋势 
的 复杂 程度 密切 相关 。 最 简单 的 情况 是 , 想 识别 两 大 分 组 之 间 的 显著 区 别 , 但 随 着 需要 拟 合 的 模 
型 将 分 类 规则 摘 得 愈 发 复杂 , 且 两 个 组 的 规模 越 来 越 小 , 添加 越 来 越 多 的 特征 会 影响 模型 分 类 的 
一 致 性 和 高 效 性 。 


这 是 一 个 复合 问题 , 因为 不 会 每 次 都 知道 哪个 参数 或 变化 最 适合 具体 问题 。 这 种 适用 性 因 模 
型 而 异 ， 比 如 决策 森林 使 用 单调 变换 〈 即 保留 数据 原始 顺序 的 变换 ， 例 如 对 数 标准 化 ) 的 效果 就 
不 如 用 未 经 标准 化 的 原始 数据 的 效果 ， 但 对 其 他 算法 而 言 ， 再 标准 化 可 能 是 非常 有 效 的 方法 。 


传统 上 , 特征 数量 和 参数 数量 都 取决 于 构造 函数 的 需求 , 该 函数 能 将 关键 输入 和 理想 的 输出 
评估 分 数 挂 钓 。 在 这 种 情况 下 ， 人 额外 的 参数 需要 以 移动 变量 或 干扰 变量 的 形式 整合 进来 。 


每 个 新 参数 都 会 引入 一 个 新 维度 , 这 使 得 模拟 的 关系 更 加 复杂 , 也 使 得 模型 更 容易 过 度 拟 合 
数据 。 例 如 引入 一 个 相当 于 每 个 实例 唯一 标签 的 参数 , 那么 算法 只 会 学 习 这 些 标签 ， 而 根本 无 法 
预测 新 数据 集 。 


微不足道 的 实例 也 可 能 产生 严重 问题 ， 当 特征 将 实例 分 割 成 非常 小 的 组 时 , 实例 和 特征 的 比 
例 就 变 得 举足轻重 。 简 而 言 之 , 模型 函数 复杂 度 的 提升 会 导致 模型 更 容易 出 现 过 度 拟 合 ， 而 特征 
数量 的 增加 更 加 重 了 这 种 影响 。 根据 该 原则 ， 应 该 先 从 小 数据 集 开始 ， 并且 只 在 确保 参数 能 够 提 
升 模型 的 情况 下 添加 参数 。 


然而 ， 近 来 一 种 对 立 的 方法 论 逐 渐 发 展 起 来 ， 并 成 为 了 从 事 数 据 科 学 的 基本 理论 。 它 表明 ， 
可 以 构建 大 型 特征 集 来 包含 所 有 具有 潜在 价值 的 特征 ， 同 时 减少 功能 元 余 的 多 余 特 征集 。 
在 大 型 特征 集 ( 可 能 包含 上 百 或 上 千 种 特征 ) 上 做 决策 的 技术 支持 该 方法 论 ， 其 运行 过 程 通常 
比较 粗暴 。 这 些 技术 会 详尽 地 测试 特征 组 合 ,连续 或 并 行 地 运行 模型 , 直到 找到 最 有 效 的 参数 子 集 。 
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这 些 技术 非常 有 效 ,， 这 正 是 这 种 方法 论 流 行 的 原因 。 了 解 这 些 技术 很 有 必要 ,本章 稍 后 将 介 
些 技术 的 应 用 。 


在 特征 选择 中 运用 “暴力 ”技术 的 主要 缺点 是 ,我 们 很 容易 相信 算法 的 输出 结果 , 不管 其 选 
出 的 特征 究竟 意味 着 什么 。 应 该 在 高 效 、 无 须 领 域 知识 的 黑 盒 算法 和 理解 所 处 理 的 问题 之 间 找 寻 
平衡 。 因 此 , 本 章 将 基于 扩张 和 缩减 这 两 种 范式 来 运用 技术 ,涵盖 了 不 同 的 场景 。 首 先 介绍 如 何 
缩小 手头 的 特征 集 ， 从 庞大 的 特征 中 提取 最 有 价值 的 特征 。 


执行 特征 选择 


构建 好 大 型 数据 集 后 ， 通 常会 面临 一 个 问题 : 如 何 缩小 选择 范围 ， 只 保留 最 有 效 的 数据 。 下 
面 介绍 一 些 支 持 特征 选择 的 技术 ， 有 的 技术 本 身 起 作用 ， 有 的 则 是 一 些 算法 的 封装 需 。 


这 些 技术 包括 相关 性 分 析 、 正 则 化 技术 和 回归 特征 消除 ( 也 称 “ 递 归 特 征 消除 ”" ) 这 些 技术 
有 助 于 筛选 特征 集 ， 在 每 次 处 理 新 数据 集 时 ， 它 们 还 能 省 下 大 量 人 力 。 


@ 相关 性 


首先 探究 回归 模型 出 现 问题 的 主要 原因 : 多 重 共 线 性 ,以 此 展开 对 特征 选择 的 讨论 。 多 重 共 
线性 指 的 是 数据 集中 的 特征 存在 较 高 的 的 相关 性 。 例 如 比萨 张 数 和 比萨 价格 就 存在 共 线 性 。 


多 重 共 线性 分 为 两 种 : 结构 性 的 和 基于 数据 的 。 结 构 性 多 重 共 线性 出 现在 创建 新 特征 时 ， 比 
如 根据 特征 了 创建 特征 用， 创建 出 的 多 个 特征 可 能 高 度 相关 。 基 于 数据 的 多 重 共 线 性 则 出 现在 两 


个 变量 受到 同一 诱因 影响 时 。 


两 种 多 重 共 线性 都 会 产生 负面 影响 。 具 体 而 言 ， 模 型 性 能 会 受到 所 使 用 的 特征 组 合 的 影响 。 
使 用 共 线 特征 时 ， 模 型 性 能 就 会 下 降 。 


处 理 这 些 情况 的 方法 很 简单 : 检验 多 重 共 线 性 是 否 存在 ， 然 后 删除 表现 不 佳 的 特征 。 表 现 不 
佳 的 特征 通常 指 的 是 几乎 无 法 提升 模型 性 能 的 特征 。 它 们 之 所 以 表现 不 佳 , 是 因为 复制 了 其 他 特 
征 的 信息 ， 或 单纯 没有 提供 对 所 处 理 的 问题 有 意义 的 数据 。 


还 有 一 种 特定 多 重 共 线 性 检验 值得 考虑 , 即 检查 数据 相关 性 矩阵 的 特征 值 。 特 征 向 量 和 特征 
值 是 矩阵 理论 的 基本 概念 ， 具 有 许多 突出 应 用 。 更 多 细节 见 本 章 末 尾 。 这 里 只 需要 知道 ， 根 据 数 
据 集 生 成 的 相关 性 矩阵 的 特征 值 是 多 重 共 线性 的 一 种 量化 度量 。 特征 值 集合 能 够 表明 特征 给 数据 
集 带 来 了 多 少 “ 新 信息 ”， 较 低 的 特征 值 表示 数据 可 能 与 其 他 特征 相关 。 例 如 以 下 代码 构造 了 一 
个 特征 集 ， 并 为 特征 0、 特征 2 和 特征 4 添加 了 共 线 性 。 


import numpy as np 


绍 这 






















































































































































































x = np.random.randn(100, 5) 
noise = np.random.randn(100) 
六 [本 2 0 2 SE 
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在 生成 相关 性 矩阵 并 计算 特征 值 时 ， 我 们 发 现 : 


ALE 
WwW, Vv 


np.corrcoef (x, rowvar=0) 
np.linalg.eig(corr) 


print ('eigenvalues of features in the dataset x') 
print (w) 


eigenvalues of features in the dataset x 
[ 0.00716428 1.94474029 1.30385565 0.74699492 0.99724486] 


显然 , 第 0 个 特征 “很 可 疑 。 下 面 调用 v 来 检查 该 特征 的 特征 值 。 


print ('eigenvalues of eigenvector 0') 
print(v[:,0]) 














eigenvalues of eigenvector 0 
[-0.35663659 -0.00853105 -0.62463305 0.00959048 0.69460718] 


特征 1 和 特征 3 值 较 小 ， 由 此 可 以 推断 特征 2 和 特征 4 与 特征 0 具有 较 高 的 多 重 共 线性 。 应 
该 在 进行 下 一 步 前 先 移 除 其 中 两 个 特征 。 





e LASSO 


正则 化 方法 是 最 有 效 的 特征 选择 技术 ,因为 它 能 提供 稀 玻 解 ， 即 把 较 弱 的 特征 归 零 ， 只 留 下 
一 部 分 特征 及 其 真正 有 效 的 系数 值 。 


最 常用 的 正则 化 模型 是 L1 正则 化 和 L2 正则 化 ， 两 者 在 线性 回归 领域 分 别称 为 “LASSO” 
和 “上 岭 回 归 ”。 


正则 化 方法 的 原理 是 给 损失 函数 添加 惩罚 项 。 不 是 将 损失 函数 EX, 有) 最 小 化 , 而 是 添加 了 一 
个 项 alwll, 其 中 超 参 数 a 与 正则 化 的 量 有 关 ( 帮助 调整 正则 化 强度 , 从 而 调整 挑选 出 的 原始 特征 
集 比 例 )。 


LASSO 正则 化 使 用 的 特定 惩罚 函数 是 ay mi=1lwil。 每 个 非 零 系数 都 会 增 大 惩罚 项 , 迫使 较 弱 
特征 的 系数 归 零 。scikit-learn 为 超 参数 提供 的 参数 优化 组 件 可 用 于 选择 合适 的 惩罚 项 。 本 例 将 用 
estimator.get_params () 执行 网 格 搜索 ， 以 选择 合适 的 超 参 数值 。 有 关 网 格 搜索 操作 的 更 多 
言 息 ， 人 参见 7.4 节 。 


只， 2 




























































































scikit-learn 的 逻辑 回归 带 有 用 于 分 类 的 Ll 惩罚 项 。LASSO 模块 也 提供 了 线性 回归 功能 。 下 
面 将 LASSO 应 用 于 一 个 示例 数据 集 ， 即 波士顿 住房 数据 集 。 


fromsklearn.linear model import Lasso 
fromsklearn.preprocessing import StandardScaler 
fromsklearn.datasets import load_ boston 























QD Python 中 的 索引 从 0 开始 。 译 者 注 
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boston = load_ boston() 

Scaler = StandardScaler() 

又 = scaler.fit transform(boston["data"]) 
Y = boston["target"] 

names = boston["feature names"] 


lasso = Lasso(alpha=.3) 
lasso.fit (Xx, Y) 


print "Lasso model: ", pretty_print_ linear(lasso.coef_, names, sort = True) 


Lasso model: -3.707 * LSTAT + 2.992 * RM + -1.757 * PTRATIO + -1.081 
* DIS + -0.7 * NOX + 0.631 * B+ 0.54 * CHAS + -0.236 * CRIM + 0.081 * 
ZN + -0.0 * INDUS + -0.0 * AGE + 0.0 * RAD + -0.0 * TAX 


原始 数据 集 的 多 个 特征 系数 都 归 零 了 ， 相 关 性 的 提升 令 解 愈 发 稀 朴 。 例 如 alpha = 0.4 时 
结果 如 下 所 示 。 


Lasso model: -3.707 * LSTAT + 2.992 * RM + -1.757 * PTRATIO + -1.081 
* DIS + -0.7 * NOX + 0.631 * B+ 0.54 * CHAS + -0.236 * CRIM + 0.081 * 
ZN + -0.0 * INDUS + -0.0 * AGE + 0.0 * RAD + -0.0 * TAX 


特征 选择 技术 LI 正则 化 的 值 可 以 立即 得 出 。 然 而 请 注意 ，L1 正则 化 回归 并 不 稳定 。 当 数据 
内 的 特征 相关 时 ， 即 使 数据 变化 很 小 ， 也 可 能 令 系 数 显著 改变 。 


L2 正则 化 (或 岭 回 归 ) 以 另 一 种 方式 处 理 特 征 系 数 ， 可 以 有 效 地 解决 该 问题 。L2 正则 化 在 
损失 函数 中 加 入 一 个 额外 的 惩罚 项 ， 即 L2 范 数 惩罚 项 ， 其 形式 为 cni=1w^27。 显 然 ， 与 L1 惩 
罚 项 (a3ni=1hwil ) 不 同 ，L2 惩罚 项 使 用 了 平方 后 的 系数 。 这 导致 系数 值 分 布 更 加 平均 ， 且 相关 
特征 会 接收 相似 的 系数 值 。 这 可 以 提高 稳定 性 ， 系 数 不 会 因为 数据 的 微小 变化 而 显著 波动 。 


然而 ,，L2 正则 化 并 不 像 LI 正则 化 那样 直接 有 助 于 特征 选择 。 但 因为 有 趣 的 特征 ( 具有 预测 
能 力 的 特征 ) 的 系数 通常 非 零 ， 所 以 作为 探索 工具 的 L2 正则 化 更 有 用 。 它 有 助 于 我 们 推断 分 类 
中 特征 的 质量 ， 还 比 LI 正则 化 更 加 稳定 可 靠 。 


@ 回归 特征 消除 


回归 特征 消除 是 一 种 贪 焚 迭 代 算 法 ， 可 用 作 其 他 模型 (比如 支持 向 量 机 ) 的 封装 器 ， 即 在 输 
入 数据 的 不 同 子 集 上 反复 运行 。 

应 用 回归 特征 消除 的 目标 与 LASSO 和 上 岭 回 归 相 同 , 即 找到 表现 最 好 的 特征 子 集 。 正 如 其 名 ， 
该 技术 每 次 和 欠 代 时 剔除 一 个 特征 ,用 剩余 特征 重复 该 过 程 , 直到 数据 集 内 的 所 有 特征 都 消除 为 止 。 
地 征 消除 的 顺序 就 是 其 排名 。 随 着 迭代 次 数 增加 ， 子 集会 越 来 越 小 。 多 次 迭代 之 后 ， 每 个 特征 都 
会 得 到 精确 的 评分 ， 并 且 相 关子 集会 被 挑选 出 来 以 备 后 用 。 


下 面 举例 说 明 该 算法 的 原理 ， 将 用 到 之 前 讲 过 的 数字 数据 集 。 
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print(_ doc ) 


from sklearn.svm import SVC 
fromsklearn.datasets import load digits 
fromsklearn.feature_ selection import RFE 
importmatplotlib.pyplot as plt 


digitS = "10ad"digite() 

xX = digits.images.reshape((lenl(digits.images), -1)) 

y digits.target 

我 们 将 通过 支持 向 量 分 类 机 的 svc 运 算 符 将 支持 向 量 机 作为 基础 评估 器， 然后 对 模型 应 用 回 
归 特 征 消除 封装 器 。 回 归 特 征 消除 接收 多 个 参数 。 第 一 个 参数 用 于 引入 所 选择 的 评估 器 。 第 二 个 
参数 是 n_features_to_select”。 有 时 特征 集会 包含 很 多 相互 关联 的 特征 ,而 这 些 特征 子 集 所 
包含 的 多 元 分 布 可 能 会 对 分 类 有 重要 影响 ， 此 时 可 以 考虑 将 这 两 个 或 多 个 特征 进行 组 合 。 


可 以 通过 设置 step 在 每 次 迭代 时 删除 多 个 特征 。 比 如 给 定 一 个 0.0~1.0 的 值 ， 那 么 每 一 步 都 
会 删除 特征 集中 的 一 部 分 ， 这 部 分 的 占 比 就 是 step 的 参数 值 。 


SVC = SVC(kernel="linear", C=1) 

rfe = RFE(estimator=svc, n_features_ to_select=1, step=1) 
rfe.fit (x, y) 

ranking = rfe.ranking_.reshape (digits.images[0] .shape) 





















































It .matshow (ranking) 

lt.colorbar() 

It.title("Ranking of pixels with RFE") 
It.show!() 


号 Dp 











如 前 所 述 ， 该 数字 数据 集中 的 每 个 实例 都 是 8x8 的 手写 数字 图 像 ， 如 图 7-8 所 示 。 每 个 图 像 
都 位 于 8x8 网 格 的 中 部 。 
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图 7-8 














QQ 用 于 设 定 特 征 筛选 数 。 一 一 译 者 注 
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当 在 数字 数据 集 上 应 用 回归 特征 消除 时 ， 可 以 看 到 该 技术 在 排序 时 明显 捕获 了 这 些 信息 


( 见 图 7-9 )。 

Ranking of Pie Win 户主 
56 
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40 
32 
24 
16 
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图 7-9 


首先 被 删除 的 像素 在 图 像 (通常 为 空 ) 垂直 边缘 的 内 侧 附近 。 然 后 ,算法 一 般 会 删除 垂直 边 
缘 附 近 或 接近 图 像 顶 部 的 空白 区 域 。 保留 最 久 的 像素 是 那些 最 能 区 分 不 同 数字 的 像素 , 即 在 一 些 
数字 中 出 现 ， 而 不 在 其 他 数字 中 出 现 的 像素 。 


本 例 有 助 于 阐释 回归 特征 消除 的 原理 , 但 并 未 展现 这 项 技术 的 一 致 性 如 何 。 回 归 特 征 消除 的 
稳定 性 取决 于 基础 模型 的 稳定 性 ， 在 某 些 情况 下 ， 岭 回归 能 得 到 更 稳定 的 解 。( 有 关 实 例 和 条 件 
的 更 多 信息 ， 参 见 7.4 节 。) 


@ 让 传 模型 


前 面 提 过 , 一 些 算法 有 助 于 我 们 在 庞大 的 参数 集 上 执行 特征 选择 。 其 中 最 好 的 技术 是 遗传 算 
法 ， 它 能 模拟 自然 选择 ， 以 生成 越 来 越 有 效 的 模型 。 


用 于 特征 选择 的 遗传 算法 方案 大 致 如 下 。 


口 一 系列 初始 变量 ( “预测 器 ”一 词 仅 用 于 该 语 境 下 ) 组 合成 多 个 子 集 ( 候选 )， 并 对 每 个 
候选 计算 性 能 测度 。 
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口 候选 中 表现 最 佳 的 预测 如 将 再 随机 组 合 ， 进 入 模型 的 下 一 次 迭代 ， 又 称 “ 下 一 代 ”。 
口 经 过 这 次 再 组 合 后 ， 每 个 子 集 都 有 可 能 变异 ， 因 而 需要 从 中 添加 或 删除 预测 器 。 


这 种 算法 通常 会 迭代 多 次 。 最 适宜 的 迭代 数 取 决 于 数据 集 和 模型 的 复杂 程度 。 遗 传 算法 中 的 
生 能 和 和 迭代 数 的 关系 与 梯度 下 降 技术 相似 ， 随 着 迭代 数 增加 , 性 能 提升 会 非 线 性 地 下 降 ,， 最 终 在 
过 度 拟 合 风险 上 升 前 达到 最 小 值 。 


为 了 找到 最 高 效 的 迭代 数 ， 可 以 用 训练 数据 进行 测试 。 通过 多 次 运行 模型 ,并 绘制 均 方 根 误 
差 (root mean squared error，RMSE ) 曲线 ， 可 以 找到 输入 数据 和 模型 配置 对 应 的 最 佳人 迭 代数 。 


下 面 详 述 每 次 迭代 的 细节 。 特 别 是 如 何 创建 候选 子 集 、 如 何 评估 效果 , 以 及 如 何 进行 再 组 合 。 


候选 项 最 初 配置 为 可 用 预测 器 的 随机 样本 。 第 一 代 所 使 用 的 预测 器 数量 没有 硬性 规定 , 取决 
于 可 用 的 特征 数 , 但 第 一 代 候选 的 样本 数 通常 为 可 用 特征 数 的 50%~80%( 特征 越 多 , 比例 越 小 )。 


拟 合 度 指 标 可 能 很 难 定义 ,通常 会 使 用 两 种 形式 的 交叉 验证 。 内 部 交叉 验证 ( 在 不 比较 模型 
的 情况 下 , 仅 在 其 自身 参数 的 环境 中 测试 每 个 模型 ) 通常 用 于 追踪 给 定 迭 代 的 效果 。 内 部 交叉 验 
证 中 的 拟 合 度 指 标 则 用 于 选择 下 一 代 再 组 合用 的 模型 。 此 外 需要 外 部 交叉 验证 ( 测试 未 在 任何 迭 
代 中 用 于 验证 的 数据 集 )， 以 确保 查询 过 程 生成 的 模型 不 会 对 内 部 训练 数据 过 度 拟 合 。 


再 组 合 受 限 于 3 个 关键 参数 : 变异 概率 、 交 又 概 率 和 精英 机 制 。 其 中 最 后 一 个 为 可 选 参数 ， 
可 用 于 保留 目前 一 代 中 表现 最 佳 的 模型 中 的 前 个， 以 避免 青 组 合 过程 中 完全 丢失 高 效 的 候选 。 
这 些 候 选 也 将 用 作 变 体 或 下 一 代 候选 的 父 类 。 

变异 概率 定义 了 下 一 代 模 型 随机 再 调整 〈 通过 添加 或 删除 预测 需 ， 一 般 为 1 个 ) 的 概率 。 变 
异 能 帮助 遗传 算法 维持 候选 变量 的 广泛 覆盖 ， 降 低 解 受 限于 局 部 空间 的 风险 。 


交叉 概率 则 定义 了 一 对 被 选中 在 下 一 代 模 型 中 进行 再 组 合 的 概率 。 交 叉 算 法 有 多 种 : 每 个 父 
类 的 特征 集 的 一 部 分 可 能 要 相互 结合 〈 比如 第 1 个 父 类 的 一 半 加 上 第 2 个 父 类 的 一 半 ) 为 子 代 ， 
或 随机 选择 所 使 用 的 每 个 父 类 的 特征 。 默认 使 用 两 个 父 类 的 共同 特征 。 在 两 个 父 类 的 独 有 预测 子 
集合 中 随机 采样 是 一 种 常用 方法 。 

以 上 是 常规 遗传 算法 的 主要 部 分 ， 该 算法 可 用 作 现 有 模型 ( 比如 逻辑 回归 、 支 持 向 量 机 等 ) 
的 封装 器 。 这 里 提 到 的 技术 有 许多 变 体 ,并 且 不 同 量化 领域 的 特征 选择 技术 也 存在 些许 区 别 。 下 
面 将 理论 知识 应 用 于 一 个 实际 案例 。 






































i 














































































































7.3 ”特征 工程 实战 


根据 建 模 方法 的 不 同 , 特征 工程 的 实际 效果 也 会 有 所 差异 。 比 如 相 较 于 一 些 较 浅 的 模型 , 深 
度 学 习 算法 仅 需 较 少 的 特征 工程 就 能 有 更 好 的 表现 ， 而 且 改 进 结 果 所 需要 的 工作 量 也 较 少 。 
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理解 需求 的 关键 是 , 快速 、 深 入 地 理解 从 数据 获取 到 建 模 的 全 过 程 。 首 先 要 设 定 目标 ,以 明 
确 模 型 所 需 的 准确 度 , 然后 找到 一 个 可 接受 的 最 快 的 实现 方案 并 执行 。 尽 可 能 学 习 结果 所 透露 出 
的 有 效 信息 ， 并 计划 下 一 次 迭代 。 


下 面 在 实践 中 演示 该 过 程 一 一 迭代 式 地 不 断 建 模 并 逐步 提高 模型 质量 , 以 处 理 一 个 没 见 过 的 
高 维 数据 集 。 


我 最 近 住 在 温哥华 。 这 座 城 市 有 许多 优点 , 但 最 大 的 缺点 是 , 城市 的 交通 让 人 难以 捉摸。 无 
论 是 开车 还 是 搭乘 Translink 的 “天 空 列车 ”系统 (一 种 单轨 的 过 山 车 式 高 速 铁 路 )， 都 很 容易 遇 
到 难以 预测 的 延迟 和 堵车 问题 。 


本 着 将 新 的 特征 工程 技能 付 诸 实践 的 精神 ,下 面 考虑 能 和 否 提升 这 座 城 市 的 交通 体验 。 步 又 如 
下 所 示 。 


口 通过 编程 获取 多 个 API 的 数据 ， 其 中 包括 文本 流 数据 和 天 气 数 据 。 
口 用 特征 工程 技术 从 原始 数据 中 构造 衍生 变量 。 
口 通过 计算 通勤 延迟 风险 评分 来 测试 特征 集 。 


本 例 不 关注 如 何 构建 高 性 能 模型 ， 而 关注 如 何 构造 自 洽 的 解 , 即 可 以 根据 所 处 地 区 进行 调整 
和 应 用 的 解 。 虽 然 该 方法 符合 本 章 的 目的 ， 但 有 另外 两 个 重要 原因 。 


首先 ， 分 享 和 利用 Twitter 数据 时 会 出 现 一 些 问题 。Twitter API 的 部 分 使 用 条 款 需要 开发 者 
保证 ， 任 何 对 时 间 轴 或 数据 集 的 状态 调整 〈 比如 删除 一 条 推 文 ) 都 必须 能 通过 从 Twitter 获取 或 
公开 分 享 的 数据 集 复 现 。 这 一 点 导致 本 章 的 GitHub 库 很 难 包含 真实 的 Twitter 数据 ， 因 为 用 户 需 
要 自己 构建 数据 流 并 累积 数据 , 这 提高 了 最 后 根据 数据 流 构建 的 下 游 模 型 复 现 结果 的 难度 ,而 且 
数据 的 其 他 变化 〈 比如 季节 性 变化 ) 也 可 能 会 影响 模型 效果 。 

另 一 个 原因 非常 简单 : 并 非 所 有 人 都 住 在 温哥华 。 为 了 向 最 终 用 户 提 供 价 值 ， 需 要 考虑 一 种 
可 调整 的 泛 化 解 ， 而 不 是 限于 地 理 位 置 的 特定 解 。 

因此 ， 稍 后 展示 的 代码 将 用 于 构建 或 开发 。 这 些 代码 可 作为 成 功 的 商业 应 用 的 基础 ， 或 单纯 
作为 一 种 有 用 的 由 数据 驱动 的 生活 技巧 。 在 此 前 提 下 ,阅读 本 童 内 容 ( 并 利用 相关 目录 的 代码 )， 
然后 创造 出 适合 具体 情况 、 可 获得 本 地 数据 ， 并 能 满足 个 人 需求 的 新 应 用 。 








































































































通过 RESTful API 获 取 数 据 


首先 需要 收集 一 些 数据 。 这 里 要 找 的 是 频率 足够 高 〈 最 好 每 个 通勤 时 段 都 至 少 有 一 条 记录 ) 
的 大 量 时 间 蕉 数据 ， 以 进行 模型 训练 。 


Twitter API 是 不 错 的 选择 ， 因 为 易于 获取 最 近 的 推 文 数据 。 具 体 有 两 种 方法 。 
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首先 ,可 以 收集 官方 高 速 运 输 管理 局 ( 特别 是 有 关公 共 汽 车 和 火车 的 企业 ) 的 推 文 。 这 些 企 
业 能 提供 延误 和 服务 中 断 的 运输 服务 信息 。 这 些 信 息 格 式 一 致 ， 有 助 于 给 数据 添加 标签 。 


此 外 , 可 以 搜索 感 兴趣 的 区 域 的 相关 推 文 , 用 自 定义 词典 捕捉 与 服务 中 断 事故 或 其 原因 相关 
的 词语 ， 从 而 了 解 通勤 者 的 情绪 。 


除了 利用 Twitter API 来 获取 支持 模型 的 数据 外 ， 还 可 以 利用 其 他 API 提取 大 量 信息 。 其 中 
尤为 重要 的 数据 源 是 必 应 交通 API， 它 能 够 提供 特定 用 户 所 处 区 域 交通 堵塞 或 中 断 事故 的 信息 ， 
且 易 于 调用 。 


此 外 , 还 可 以 利用 雅虎 天 气 API 的 数据 。 该 API 能 根据 邮政 编码 或 位 置 输入 给 出 特定 地 点 的 
当前 天 气 状况 。 它 所 提供 的 当地 气象 信息 非常 丰富 ,包括 但 不 限于 温度 、 风 速 、 湿 度 、 气 压 和 能 
见 度 。 此 外 ， 它 还 提供 当前 天 气 状 况 的 文字 描述 以 及 天 气 预报 。 


尽管 可 以 加 入 分 析 的 数据 源 还 有 很 多 ， 首 先 看 看 如 何 处 理 这 份 数 据 。 
1. 测试 模型 性 能 


需要 做 的 是 评估 当前 每 天 通勤 中 断 的 风险 ,最 好 能 预知 通勤 风险 ， 从 而 采取 行动 ( 比如 早点 
出 门 ) 来 降低 风险 。 


对 此 ， 需 要 以 下 3 点 。 


口 了 解 模 型 输出 ; 
口 用 于 量化 模型 性 能 的 方法 ; 
口 能 够 根据 方法 为 模型 性 能 评分 的 目标 数据 。 


就 这 几 点 的 重要 性 ,可 以 展开 讨论 。 实际 上 , 一 些 模型 是 有 目的 的 信息 汇总 。 通勤 风 险 分 就 
很 有 用 ， 因 为 它 能 生成 一 些 新 信息 。 


实际 情况 是 ， 必 须要 有 一 个 性 能 测度 标准 。 该 标准 可 以 单纯 是 对 模型 输出 结果 的 满意 程度 ， 
但 这 种 标准 是 很 有 用 的 。 因此, 性 能 测度 的 量化 非常 重要 ， 即 使 该 模型 有 自己 的 测度 方式 (甚至 是 
无 须 测度 的 无 监督 学 习 ) 性 能 测试 不 可 忽略 , 至 少 需要 一 个 量化 的 性 能 测度 来 迭代 式 地 优化 模型 。 


比较 明智 的 做 法 是 ， 设 定 模型 的 输出 是 对 某 日 的 上 班 通勤 (从 家 到 公司 ) 状况 的 数值 评分 
(评分 范围 为 0~1 )。 该 评分 的 计算 有 几 种 方法 , 其 中 最 常用 的 方法 可 能 是 对 数据 应 用 对 数 标准 化 。 
对 数 标准 化 有 很 多 优点 , 而且 对 于 本 案例 来 说 是 比较 好 的 做 法 (毕竟 通勤 延迟 时 间 的 分 布 很 可 能 
遵循 寡 次 法 则 )。 目 前 不 对 这 些 得 分 执行 数据 转换 ， 而 是 等 模型 输出 结果 后 再 进行 检验 。 

0~1 的 得 分 很 难 给 出 切实 可 行 的 指导 意见 。 因 此 ， 可 能 要 用 时 段 系 统 ( 比如 高 峰 、 中 峰 和 低 
峰 )， 时 段 间 的 划分 边界 会 限制 在 0~1。 简 而 言 之 , 需要 将 问题 当 作 具备 类 型 输出 ( 类 标签 ) 的 
多 分 类 问题 来 处 理 ， 而 不 是 连续 数值 型 输出 的 回归 问题 。 
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这 样 能 够 提升 模型 性 能 。( 确切 地 说 ， 自 由 误差 限度 会 放宽 到 相关 时 段 的 对 应 宽松 度 ， 而 这 
是 一 种 非常 宽松 的 性 能 测度 。) 同样 ， 第 一 次 迭代 就 引入 这 种 变化 并 不 合适 。 评 估 真 正 通勤 延迟 
的 分 布 之 前 ， 无 法 知道 在 哪里 绘制 类 边界 。 
接 下 来 需要 考虑 如 何 度量 模型 的 性 能 。 恰 当 的 评分 方法 通常 取决 于 问题 的 特征 。 对 分 类 器 性 
能 进行 评分 的 方法 有 很 多 。( 关于 机 器 学 习 算 法 性 能 度量 的 更 多 方法 ， 参 见 7.4 节 。) 
决定 性 能 测度 是 否 合 理 的 方法 之 一 是 “混淆 矩阵 "。 混 淆 矩阵 是 一 张 可 能 事件 的 表格 ， 通 常 
能 在 统计 建 模 中 描述 预测 标签 和 实际 标签 的 差异 。 和 输出 训练 后 模型 的 混淆 矩阵 ( 尤其 是 类 更 多 的 
多 类 问题 ) 是 一 种 常见 做 法 ， 因 为 混淆 矩阵 可 以 得 出 分 类 失败 的 类 型 的 重要 信息 。 


由 此 可 知 ， 采 用 混淆 矩阵 可 以 更 直观 地 展现 模型 的 性 能 。 不 妨 查看 以 下 的 简化 矩阵 〈 见 图 7-10 )， 
看 看 其 中 是 否 存在 未 关注 到 的 偶发 事件 。 



































































































预测 真 真 阳性 假 阴性 
假 假 阳 性 真 阴性 








图 7-10 








本 例 需 要 考虑 所 有 4 种 可 能 事件 。 假 阴性 指 会 遇 到 意料 之 外 的 延迟 ， 而 假 阳 性 指 不 必 提 前 出 
门 。 这 意味 着 ， 需 要 一 个 既 有 高 敏感 度 ( 真 阳性 )， 又 有 高 特异 性 〈 真 阴性 ) 的 性 能 测度 。 因 此 ， 
最 理想 的 选择 就 是 AUC。 


第 二 个 大 问题 是 如 何 计 算 该 分 数 。 需 要 预测 变量 的 目标 值 。 好 在 这 些 目标 值 容易 获 了 到， 毕竟 
我 每 天 也 需要 上 下 班 。 只 需要 一 只 秒表 , 在 固定 的 时 间 开 始 计时 ， 经 过 固定 的 通勤 路 线 ， 就 能 记 
录 每 天 的 通勤 用 时 。 


需要 注意 的 是 , 该 方法 有 很 大 的 局 限 性 。 作 为 数据 源 ， 我 受 限 于 自己 的 生活 习惯 ,比如 早上 
需要 喝 咖 啡 来 提神 。 同 理 , 我 自己 的 固定 通勤 路 线 可 能 有 着 其 他 路 线 所 没有 的 本 地 趋势 。 如 果 能 
收集 到 许多 人 和 许多 路 线 的 通勤 数据 ， 就 会 好 很 多 。 


但 从 某 种 程度 上 说 , 现在 的 目标 数据 还 不 错 。 因 为 我 想 对 自己 通勤 路 线 上 的 中 断 事故 进行 分 
类 ,而 不 希望 通勤 时 间 的 自然 变动 在 训练 过 程 中 被 误解 , 比如 受到 其 他 通勤 者 或 通勤 路 线 的 影响 。 
此 外 ， 性 能 优越 的 模型 应 该 会 忽略 我 们 预料 到 的 日 常 自 然 变 化 。 

此 外 , 很 难 判 断 模型 性 能 是 否 已 经 足够 好 。 确切 地 说 , 很 难 知晓 模型 的 表现 何 时 会 超过 预期 。 
况且 我 无 法 精确 预测 通勤 延迟 , 个 人 的 预测 似乎 也 无 法 泛 化 到 其 他 地 区 的 其 他 通勤 者 。 为 模型 训 
练 设 定 相当 主观 的 目标 似乎 并 不 明智 。 
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不 妨 换 种 思路 ， 艾 试 让 模型 超过 一 个 极 低 的 门槛 ， 即 简单 地 假设 每 天 都 不 会 出 现 通 勤 延 迟 。 
该 目标 有 着 相当 讨 喜 的 性 质 , 它 能 体现 出 我 们 对 现实 生活 的 美好 祈 愿 ( 可 以 每 天 不 用 早起 , 不 用 
考虑 交通 中 断 的 影响 )。 


在 85 个 目标 数据 实例 中 ， 观 测 到 了 14 次 通勤 延迟 。 基 于 这 份 目 标 数据 和 创建 的 评分 测度 ， 
要 超过 的 最 低 间 值 应 为 0.5。 
































2. Twitter 


由 于 案例 分 析 是 基于 温哥华 这 座 城 市 进行 的 ， 因 此 可 以 研究 第 二 种 Twitter 数据 源 ， 具 体 而 
， 就 是 温哥华 公共 交通 管理 局 Translink 的 官方 服务 声明 。 





Il 








© Translink Twitter 


前 面 提 到 ,数据 已 经 具备 良好 的 结构 ,而 且 有 助 于 文本 挖掘 和 后 续 分 析 。 用 前 两 章 介绍 过 的 
技术 处 理 数据 后 ， 就 能 清洗 文本 并 将 其 编码 成 有 用 的 特征 了 。 


下 面 将 使 用 Twitter API 获取 一 段 时 间 内 Translink 的 推 文 。Twitter API 易 于 使 用 ， 可 以 通过 
Python 轻松 调用 。( 如 何 使 用 Twitter API 的 详细 指导 ,参见 7.4 节 。) 本 例 需 要 从 推 文中 提取 日 期 
和 正文 文本 ， 其 中 后 者 几乎 包含 了 需要 了 解 的 所 有 信息 ， 具 体 如 下 所 示 。 


口 推 文 的 性 质 ( 是否 延迟 ) 
口 影响 的 站 点 
口 有 关 延 迟 性 质 的 一 些 信 ， 


复杂 之 处 是 ，Translink 账户 会 同时 发 布 “ 天 空 列 车 ”线路 和 公共 汽车 线路 的 服务 中 断 信 息 。 
好 在 该 账户 描述 问题 的 用 词 ( 比如 服务 类 型 或 服务 对 象 ) 非常 统一 ， 并且 会 用 特殊 标签 ( 例如 公 
共 汽 车 路 线 信息 用 #RiderAlert, 火车 相关 信息 用 #SkyTrain , 两 种 服务 的 一 般 警 报 用 #TransitAlert， 
比如 法 定 节假日 ) 来 区 分 服务 中 断 的 对 象 。 


同 理 ， 可 以 预期 延迟 事件 会 用 “延迟 ”( delay ) 一 词 来 描述 ， 绕 路 事件 会 用 “ 绕 路 ”( detour ) 
一 词 来 描述 ， 分 流 事件 也 会 用 “分 流 ”( diversion ) 一 词 来 描述 。 这 意味 着 ， 可 以 用 关键 词 盘 掉 
不 想 要 的 推 文 。 感 谢 Translink! 
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本 章 使 用 的 数据 见 本 章 附 带 的 GitHub 仓库 ,文件 为 translink tweet datajson。 
下 载 脚本 也 含 在 本 章 代 码 中 。 要 想 利用 这 些 资源 ， 需 要 向 Twitter 申请 一 个 开发 
者 账户 。 申 请 流程 很 简单 ， 有 相关 文档 说 明 ， 也 可 以 在 那里 注册 。 





获取 推 文 数据 后 ， 下 一 步 是 清洗 和 规范 正文 文本 。 根 据 第 6 章 所 讲 ， 在 输入 数据 上 运行 


BeautifulSoup 和 NLTK。 
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from bs4 import BeautifulSoup 

tweets = BeautifulSoup(train["TranslinkTweets.text"]) 
tweettext = tweets.get_text() 

brown_a = nltk.corpus.brown.tagged sents(categories= 'a') 


tagger = None 
for n in range(1,4): 
tagger = NgramTagger (n, brown a, backoff = tagger) 


taggedtweettext = tagger.tag (tweettext) 


清洗 工作 的 强度 不 必 像 上 一 章 清洗 喷 子 数据 集 那 样 高 。Translink 的 推 文 高 度 格式 化 , 不 含 非 
ASCII 码 字符 或 表情 符号 ， 因 此 无 须 使 用 第 6 章 必 须 使 用 的 特定 “深度 清洗 ”正则 化 脚本 。 


Translink 的 推 文集 是 全 部 小 写 、 规 范 化 且 用 词 符合 词典 规范 的 数据 集 。 考虑 一 下 该 从 这 份 数 
据 中 提取 什么 样 的 特征 。 


检测 数据 是 否 包 含 服务 中 断 问题 的 基本 方法 是 看 推 文中 是 否 使 用 了 “延迟 ”一 词 。 延 迟 事故 
涉及 以 下 要 素 。 


口 特定 地 点 
口 特定 时 间 
口 特定 原因 
D 特定 时 长 


前 3 个 要 素 可 以 在 Translink 的 推 文中 持续 追踪 ， 但 一 些 数据 质量 问题 需要 考虑 。 


“地 点 ”体现 在 受 影响 的 街道 或 站 点 的 词语 中 (比如 “在 第 22 大 街 ”)。 就 目的 而 言 ， 这 描述 
得 不 够 完美 , 因为 不 做 大 量 额外 工作 的 情况 下 , 不 可 能 将 街道 名 和 路 线 起 始点 转化 成 一 般 的 受 影 
响 区 域 ( 因为 目前 没有 便捷 方法 可 以 基于 这 些 信息 绘制 边界 框 )。 


“时 间 ” 就 是 推 文 的 发 布 时 间 ， 这 也 不 够 完美 。 虽 然 无 法 得 知 推 文 是 否 在 发 生 服 务 中 断后 的 
固定 时 间 内 发 布 ， 但 Translink 的 服务 通知 时 间 和 发 现 问 题 的 时 间 可 能 十 分 接近 。 这 里 不 妨 假设 
推 文 的 发 布 时 间 是 足够 精确 的 ， 在 这 样 的 假设 下 继续 研究 。 


当然 也 存在 例外 ， 比 如 某 些 长 期 存在 的 问题 或 者 个 别 突 发 性 问题 ( 本 以 为 微不足道 , 结果 影 
响 巨大 的 延迟 事故 )。 在 这 种 情况 下 ，Translink 团队 可 能 迟 迟 未 发 推 文 ， 直 到 他 们 意识 到 这 场 延 
迟 需 要 发 布 到 Twitter 上 。 导 致 数据 出 现 质量 问题 的 另 一 个 可 能 的 原因 是 Translink 内 部 沟通 不 畅 ， 
可 能 工程 人 员 或 平台 团队 不 是 每 次 都 及 时 告知 客服 通知 团队 。 


在 没有 真实 、 精 确 的 Translink 服务 延迟 数据 集 的 情况 下 ， 只 能 粗略 地 度量 这 些 延 迟 效 应 。 
(有 的 话 当然 更 好 。 ) 
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Translink 一 般 将 “天 空 列 车 ”服务 延迟 的 原因 分 为 以 下 几 类 。 











在 Twitter 正文 中 ， 每 种 原因 都 会 用 列表 中 的 专用 名 词 来 描述 。 显 然 ， 一 些 原因 (治安 、 电 
力 、 医 药 ) 和 本 示例 关系 不 大 ， 毕 竟 它 们 无 法 提供 与 路 况 相 关 的 有 用 信息 。 火 车 行驶 速度 、 路 线 
和 开关 故障 可 能 会 导致 绕 行 。 这 意味 着 ， 需 要 对 这 些 实例 进行 分 类 。 

同时 ， 公 交 线 路 的 服务 延迟 包含 类 似 的 编码 ， 其 中 许多 都 很 有 用 ， 有 具体 如 下 所 示 。 

口 机 动车 辆 事故 
口 建设 
口 火灾 
口 水 管 
口 交通 

为 这 些 事件 类 型 编码 会 非常 有 用 , 尤其 是 有 的 服务 延迟 类 型 比 其 他 的 更 具 影 响 力 , 进而 延长 
服务 延迟 的 时 间 。 需 要 为 服务 延迟 类 型 编码 ， 并 将 这 些 编码 作为 后 续 建 模 中 的 参数 。 

为 此 ， 需 要 对 独 热 编码 做 一 些 改 动 ， 步 又 如 下 所 示 。 

口 为 每 种 公交 服务 的 风险 类 型 构造 一 个 条 件 变 量 ， 并 初始 化 为 0。 

口 检查 每 种 公交 服务 的 风险 类 型 的 推 文 内 容 。 

口 将 每 个 包含 特定 风险 词 的 推 文 的 相关 条 件 变量 值 设 为 1。 

这 样 就 无 须 执行 烦琐 的 中 间 步 又 ( 即 创建 需要 处 理 的 因子 变量 )， 高 效 地 进行 独 热 编码 了 。 


from sklearn import preprocessing 
























































enc = preprocessing.OneHotEncoder (categorical_ features='all', dtype='float', 
handle_ unknown='error', n _ values='auto', 
sparse=True) 


tweets.delayencode = enc.transform(tweets.delaytype) .toarray () 
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除了 每 个 事件 的 基础 特征 外 , 还 可 以 观察 服务 中 断 问 题 和 中 断 频 率 的 关系 。 如 果 一 周 内 出 现 
了 两 次 中 断 ， 那 么 第 三 次 中 断 是 更 容易 还 是 更 不 容易 出 现 呢 ? 


虽然 这 些 问 题 很 有 趣 , 而 且 也 可 能 对 构建 模型 有 所 帮助 , 但 通常 更 谨慎 的 做 法 是 第 一 次 建立 
一 个 有 限 的 特征 集 和 简单 模型 ， 而 不 是 盲目 地 设计 一 个 庞大 的 特征 集 。 因 此 ,用 初始 的 发 生 率 特 
征 运行 一 次 ， 并 查看 结果 如 何 。 

@ 用 户 评论 

2010 年 ， 文 化 领域 的 一 个 主流 发 展 趋 热 是， 有关 个 人 观点 表述 的 公共 网 络 逐 渐 普 及 。 这 种 
现象 产生 了 大 量 自述 式 的 涉及 多 个 领域 的 信息 ， 可 供 我 们 使 用 。 

通勤 中 断 事故 的 频繁 发 后 容易 招致 个 人 意见 ， 从 而 在 社交 媒体 上 广泛 传播 。 因 此 ， 如 果 编 写 
好 使 用 关键 词 检索 的 字典 ， 就 可 以 将 Twitter 作为 全 城 交 通 问 题 的 时 间 戳 信息 源 。 

为 了 收集 这 些 数据 , 需要 运用 基于 字典 的 查询 方法 。 我 们 对 这 期 间 的 大 部 分 推 文 都 不 感 兴 
(而 且 由 于 用 的 是 RESTful API， 因 此 还 需要 考虑 返回 的 数据 限制 问题 )， 而 关心 如 何 识别 出 包含 
通 堵塞 或 延误 相关 关键 词 的 推 文 数 据 。 

然而 ,， 大量 用 户 发 布 的 推 文 往往 格式 不 统一 ,不 便于 分 析 。 因 此 ,需要 应 用 上 一 章 介绍 的 技 
术 ， 将 数据 分 解 成 更 易于 分 析 的 形式 。 

除了 使 用 基于 字典 的 查询 , 还 要 设法 缩小 查询 范围 。 常规 的 方法 是 将 由 坐标 构成 的 边界 框 作 
为 Twitter API 的 参数 ， 这 样 相关 查询 只 会 返回 指定 范围 内 的 查询 结果 。 

如 前 所 示 , 第 一 次 尝试 会 比较 简单 。 本 例 将 计算 当前 交通 中 断 推 文 的 数量 。 还 可 以 对 数据 做 
一 些 额 外 人 处理， 以 便 后 续 迭 代 。 因 为 Translink 数据 包含 定义 清晰 的 延迟 原因 分 类 ， 所 以 可 以 试 
着 利用 专业 字典 ( 比如 建设 相关 词汇 及 同义词 字典 ) 进行 基于 关键 词 的 延迟 类 型 分 类 。 

还 可 以 对 中 断 事件 在 推 文 中 的 发 生 率 定义 更 精细 的 量化 标准 ， 而 不 是 像 现 在 这 样 简 单 计数 。 
例如 可 以 构造 一 个 加 权 计 数 特 征 , 通过 非 线性 加 权 提 高 同时 发 布 的 多 条 推 文 ( 可 能 代表 严重 中 断 
事件 ) 的 影响 。 

@ 必 应 交通 API 

下 一 个 需要 研究 的 API 是 必 应 交通 API。 它 易于 使 用 、 免 费 (一 些 同类 竞争 者 的 API 需 要 付 
费 )， 并 且 返 回 的 内 容 足 够 细致 。 此 外 ,该 API 还 能 返回 事件 地 点 代码 、 事 件 概 况 、 堵 塞 信 息 、 
事件 类 型 代码 和 起 始 时 间 惟 。 

该 API 提供 的 事件 类 型 代码 非常 有 用 ， 能 描述 种 类 繁多 的 事件 ， 有 具体 如 下 所 示 。 

(1) 事故 。 

(2) 堵塞 。 
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(3) 残疾 人 车 辆 。 
(4) 公共 交通 。 
(5) 多 方面 。 
(6) 其 他 新 闻 。 
(7) 事先 策划 。 
(8) 道路 危险 。 
(9) 建设 施工 。 
(10) 警报 。 
(11) 天 气 。 


此 外 ,该 API 还 提供 了 严重 程度 代码 ， 其 对 应 的 严重 程度 值 如 下 所 示 。 


(1) 影响 极 小 。 

(2) 影响 较 小 。 

(3) 影响 中 等 。 

(4) 影响 巨大 。 

但 该 API 有 一 个 缺点 : 从 各 地 区 获取 的 信息 不 一 致 。 例如 在 法 国 的 查询 会 返回 多 个 其 他 事件 
类 型 的 代码 (在 法 国 北部 的 一 个 小 镇 ,我 一 个 月 内 观察 到 了 1、3、5、8 几 个 类 型 ), 但 似乎 不 会 
出 现 所 有 代码 种 类 。 但 在 其 他 地 区 ， 即 使 数据 量 较 少 ， 也 不 会 出 现 这 种 情况 。 温 由 华 常常 只 出 现 
9 或 5 类 型 的 事件 ,但 事件 类 型 为 “多 方面 ”的 事件 实际 多 与 建设 相关 。 

Closed between Victoria Dr and Commercial Dr - Closed. Construction work. 5 

该 限制 很 棘手 ， 而 且 不 太 容 易 处 理 ， 因 为 必 应 API 并 没有 收集 到 我 们 想 要 的 所 有 数据 。 除 非 
付费 购买 更 全 面 的 数据 集 (或 所 在 地 区 有 数据 更 全 的 可 用 API )， 不 然 只 能 勉强 使 用 现 有 数据 。 

查询 该 API 的 示例 如 下 所 示 。 


importurllib.request, urllib.error, urllib.parse 
import json 





















































latN = str(49.310911) 

latSs = str(49.201444) 

lonW = str(-123.225544) 

Fon Sst.2903 903.) 

url = 'http://dev.virtualearth.net/REST/v1i/Traffic/Incidents/'+latS+','+lonW+', 


'+latN+','+lonE+'? 
key='GETYOUROWNKEYPLEASE'" 


response = urllib.request .urlopen (url) .read() 
data = json.loads (response.decode('utf8')) 
resources = datal'resourceSets'] [0] ['resources'] 
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print ('PRETTIFIED RESULTS') 
rE 有 
for resourceItem in resources: 

description = resourceItem['description'] 

typeof = resourceItem['type'] 

start = resourceIteml['start'] 

end = resourceItem['end'] 

print ('description:', description); 





print('type:', typeof); 

print('starttime:', start); 

print ('endtime:', end); 

DEL (Se 村 


This example yields the following data; 


description: Closed between Boundary Rd and PierviewCres - Closed due to roadwork. 
type: 9 

severity 4 

starttime: /Date(1458331200000)/ 

endtime: /Date(1466283600000)/ 

description: Closed between Commercial Dr and Victoria Dr - Closed due to roadwork. 
type: 9 

severity 4 

starttime: /Date(1458327600000)/ 

endtime: /Date(1483218000000)/ 

description: Closed between Victoria Dr and Commercial Dr - Closed. 
Construction work. 

type: 5 

severity 4 

starttime: /Date(1461780543000)/ 

endtime: /Date(1481875140000)/ 

description: AL Thurlow St - Roadwork. 

type: 9 

severity 3 

starttime: /Date(1461780537000)/ 

endtime: /Date(1504112400000)/ 


即使 API 存 在 不 同 地 区 的 事件 类 型 代码 不 一 致 的 情况 , 但 其 数据 仍 具有 一 些 价值 。 交通 中 断 
事件 的 部 分 描述 仍 能 提供 一 段 时 间 内 的 数据 。 根据 定义 的 区 域 交 通 事件 的 定位 并 返回 对 应 时 间 的 
相关 数据 ， 很 可 能 会 提高 模型 的 性 能 。 


3. 用 特征 工程 技术 获取 并 选择 变量 


第 一 次 处 理 输入 数据 时 ， 仍 保持 初始 特征 集 在 较 小 规模 。 虽 然 数据 中 有 许多 信息 值得 分 析 ， 
但 暂 不 关注 它们 ， 而 依旧 将 第 一 次 的 结果 放 在 首位 。 
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初始 数据 集 可 能 无 法 高 效 地 解决 问题 或 者 达到 目标 ,此 时 ,需要 构建 新 特征 并 精简 特征 集 ( 即 
仅 保 留 特征 构造 结果 中 有 价值 的 部 分 ) 来 反复 迭代 特征 集 。 


可 以 考虑 使 用 独 热 编码 和 回归 特征 消除 。 本章 将 使 用 独 热 编码 将 天 气 数据 和 推 文字 典 转化 成 
大 小 为 mxn 的 张 量 。 构 造 出 m 列 新 数据 后 ， 需 要 降低 模型 受到 新 特征 误导 的 可 能 性 ( 比如 多 个 
特征 强调 同一 个 信号 ， 或 者 有 误导 性 的 常用 词 没有 被 第 6 章 介 绍 过 的 数据 清洗 技术 清洗 掉 )。 前 
面 讲 过 的 特征 选择 技术 回归 特征 消除 非常 适合 执行 此 类 任务 。 


总 体 而 言 ， 应 用 前 两 章 介 绍 的 方法 〈 比如 特征 缩放 ) 是 非常 有 效 的 。 首 先 ,运用 技术 ( 比如 
转换 和 编码 ) 生成 具有 潜在 价值 的 新 特征 来 扩大 特征 集 , 然后 用 技术 识别 出 表现 最 佳 的 特征 子 集 
并 删除 表现 不 佳 的 那些 特征 。 整 个 过 程 中 测试 不 同 的 目标 特征 数量 , 以 确定 最 佳 可 用 特征 集 的 特 
征 数 量 。 


不 同 的 数据 科学 家 会 采取 不 同 的 做 法 。 有 的 先 反 复 迭 代 前 面 探讨 过 的 特征 创建 技术 来 构造 出 
所 有 特征 ,然后 减 小 特征 集 ， 以 最 小 化 丢失 数据 的 风险 ; 有 的 则 会 反复 执行 整个 过 程 。 具体 选 择 
取决 个 人 。 


第 一 次 处 理 输入 数据 时 ， 特 征集 如 下 所 示 。 
{ 


'DisruptionInformation': { 
‘Date "L565-05-2019", 
'TranslinkTwitter': [{ 
'Service': '0', 
'DisruptionIncidentCount': '4' 






















































































'Service': '1', 
'DisruptionIncidentCount': '0' 
}] 
} 
'BingTrafficAPI': { 
'NewIncidentCount': '1', 
'SevereIncidentCount': '1', 
'IncidentCount': '3' 
, 
'ConsumerTwitter': { 
'DisruptionTweetCount': '4' 


} 
} 


该 数据 集 看 起 来 会 表现 不 佳 , 但 下 面 仍 要 基于 它 运 行 初始 的 基础 算法 , 并 初步 了 解 与 目标 的 
距离 。 这 样 能 以 最 低 的 成 本 快速 了 解数 据 。 

方便 起 见 ， 用 一 个 非常 简单 的 回归 算法 进行 第 一 次 迭代 。 技 术 越 简单 ,运行 速 度 就 越 快 (而 
且 往 往 更 容易 发 现 问题 及 其 原因 )。 出 于 这 个 原因 ( 还 因为 处 理 的 是 输出 为 连续 型 的 回归 问题 ， 
而 不 是 分 类 问题 )， 第 一 次 迭代 将 建立 一 个 简单 的 线性 回归 模型 。 




















We 





134 第 7 章 ”特征 工程 II 





from sklearn import linear_ model 
tweets_ x train = tweets_ Xx[:-20] 


tweets_ x test = tweets_ Xx[-20:] 


tweets y_train = tweets.target[:-20] 
tweets y_test = tweets.target[-20:] 





regr = linear model .LinearRegression!() 
regr.fit (tweets_X train, tweets_y_train) 


print ('Coefficients: \n', regr.coef_ ) 
print ("Residual sum of squares: %$.2f" % np.mean( (regr. 
predict (tweets x test) - tweets y_ test) xx 2)) 


print ('Variance score: %$.2f' % regr.score(tweets x test, tweets y_test)) 


plt.scatter (tweets_ XxX test, tweets y_test, color='black') 
plt.plot (tweets_ x test, regr.predict (tweets_ Xx test), 
color='blue',linewidth=3) 


plt.xticks(()) 
plt.yticks(()) 
plt.show!() 


此 时 的 AUC 还 很 差 , 只 有 0.495， 比 目标 低 得 多 。 下 面 输出 一 个 混淆 矩阵， 看 看 模型 究竟 哪 
里 表现 不 佳 ( 见 图 7-11 )。 

















图 7-11 





如 上 所 示 ， 各 方面 都 不 太 理想 。 实 际 上 ， 该 矩阵 意味 着 ( 模型 认为 ) 几乎 所 有 记录 都 显示 没 
有 问题 ， 也 就 是 漏 掉 了 90% 的 实际 中 断 事 件 。 

实际 上 这 还 不 算 太 糟 , 毕竟 模型 和 特征 都 还 处 于 初期 , 而 且 一 些 输入 数据 的 价值 也 不 太 清 楚 。 
此 外 ， 事 件 发 生 率 应 有 望 达到 6% ( 因为 训练 数据 表明 ， 大 约 每 16 次 通勤 就 会 发 生 一 次 中 断 )。 
还 应 进一步 假设 每 天 都 会 出 现 一 次 通勤 中 断 事件 《如果 忽 略 每 天 早早 出 门 对 生活 方式 的 影响 )。 

考虑 下 一 次 迭代 时 的 变化 。 


(1) 首先 ， 进 一 步 提升 输入 数据 。 运 用 一 系列 转换 技术 从 现 有 数据 源 中 提取 一 些 新 特征 。 
(2) 然后 ,用 额外 信息 扩大 数据 集 。 其 中 描述 温度 和 湿度 的 天 气 数据 集 也 许 有 助 于 优化 模型 。 
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(3) 最 后 ， 可 以 升级 算法 ,例如 应 用 随机 森林 和 支持 向 量 机 。 但 目前 有 充分 的 理由 不 这 么 做 ， 
因为 可 以 从 线性 回归 中 继续 学 习 不 少 信息 。 可 以 和 先前 的 结果 对 比 ， 了 人 解 改 动 后 值 增加 了 多 少 ， 
同时 保留 快速 的 迭代 循环 和 简单 的 评分 方法 。 一 旦 做 好 特征 准备 并 得 到 了 最 小 有 效 特征 集 , 就 可 
以 考虑 升级 模型 了 。 


下 面 继续 更 新 数据 集 。 有 多 种 可 选 方案 。 可 以 将 地 点 编码 进 必 应 API“ 描 述 ” 领 域 的 交通 事 
件数 据 和 Translink 推 文中 。 对 后 者 而 言 ， 这 种 做 法 对 公交 路 线 比 对 “天 空 列车 ”路 线 更 有 用 ( 受 
限于 分 析 范 围 ， 只 能 关注 交通 通勤 )。 

可 以 选用 下 面 的 方法 来 实现 。 
口 用 街道 名 /地 点 的 语料库 解析 输入 数据 ， 并 构造 独 热 矩 阵 。 
口 简单 地 在 全 部 Twitter 正文 和 全 部 API 数据 上 运行 独 热 编 码 。 


有 趣 的 是 ， 如果 在 独 热 编码 后 运用 降 维 技术 ,就 能 在 不 出 任何 重大 问题 的 情况 下 ,对 两 种 文 
本 信息 的 全 部 文本 进行 编码 。 如 果 特 征 与 Twitter 文本 中 的 其 他 词语 不 相关 ， 就 会 被 “回归 特征 消 
除 ” 删 除 。 


该 方法 灵活 而 巧妙 。 如 果 数 据 中 含有 其 他 潜在 的 有 用 内 容 ， 而 一 直 以 来 被 忽视 未 作为 特征 ， 
这 种 处 理 就 会 基于 这 些 信息 构造 新 特征 ， 从 而 增益 。 


下 面 用 与 延迟 类 型 编码 相同 的 方式 给 地 区 编码 。 


from sklearn import preprocessing 













































































enc = preprocessing.OneHotEncoder (categorical_ features='all', dtype='float', 
handle_unknown='error', n values='auto', 
sparse=True) 
tweets.delayencode = enc.transform(tweets.location) .toarray () 
另外 ， 要 继续 根据 Translink 和 必 应 地 图 的 事件 日 志 来 构造 近期 的 计数 变量 。 此 聚合 过 程 的 
代码 可 从 本 章 附带 的 GitHub 库 中 下 载 。 
用 更 新 后 的 数据 重新 运行 模型 ， 所 得 结果 有 轻微 提升 : 预测 方差 得 分 提升 到 了 0.56。 虽然 幅 
度 不 大 ， 但 表明 模型 在 朝 正 确 的 方向 迈进 。 
下 面 和 尝试 第 二 种 方法 : 添加 新 数据 源 获取 天 气 数据 。 
@ 天 气 API 
前 面 得 到 的 一 些 数据 可 表明 通勤 中 断 事件 是 否 正在 发 生 , 即 能 实时 反映 现 有 延迟 问题 的 数据 
源 。 下 面 做 一 些 改变 ， 寻 找 与 延迟 和 堵塞 原因 相关 的 数据 ,例如 施工 信息 和 建设 信息 (这 就 引出 
了 与 必 应 交通 API 相关 的 一 些 代 码 )。 
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导致 通勤 时 间 延 长 的 常见 因素 是 糟糕 的 天 气 。 有 时 这 一 点 显而易见 ， 比 如 浓 雾 和 大 风 就 对 通 
勤 时 间 有 着 显著 影响 。 而 在 其 他 情况 下 ,对 特定 通勤 路 线 来 说 ,天 气 因素 与 中 断 概率 的 关系 的 强 
弱 和 性 质 都 不 太 明 显 。 











通过 提取 粒度 足够 细 、 地 理 覆 


盖 范 围 足够 广 的 数据 源 中 的 相关 天 气 数据 , 也 许 就 能 通 


过 天 气 





百 ， 言 息 来 改善 中 断 事件 的 正确 预测 oO 





下 面 借助 雅虎 的 天 气 API 来 实现 。 该 API 提 供 了 当前 和 未 来 的 温度 、 大 气 、 压 强 以 及 其 他 天 


气 数据 。 该 API 的 查询 无 须 密 钥 或 登录 过 程 ， 
LmMOoOrt rl iD2 rlITib,. JSon 


方法 如 下 所 示 。 


"&format=json" 

















baseurl = https://query.yahooapis.com/vl/public/yql? 

yql_query = "select item.condition from weather.forecast where 
woeid=9807" 

yql_url = baseurl + urllib.urlencode({'qg':yqgl_ query}) + 

result = urllib2.urlopen(yql_ url) .read!() 

data = json.loads (result) 

print data['gquery']['results'] 

为 了 了 解 API 能 提供 什么 ， 请 将 item.condition (本质 


成 *。 该 查询 输出 了 非常 多 的 信 





{ 











息 ， 而 深入 挖 气 可 以 得 


上 是 一 个 咎 入 式 SQL 查询 ) 替换 
到 一 些 重要 信息 ， 包 括 当 前 天 气 状况 。 


'channel': { 
'item': { 
'condition': { 
'date': 'Thu, 14 May 2015 03:00 AM PDT', 'text': 'Cloudy', 
'Code': '26', 'temp': '46' 
} 
} 
} 
} 
{ 
'item': { 
'forecast': { 
'Code': '39', 'text': 'Scattered Showers', 'high': '60'， 
ow ES 44. “date 16May 20157,. "day Ss Sat’ 
} 
} 
} 
以 及 当前 其 他 天 气 信 息 : 
'astronomy': { 
'sunset': '8:30 pm', 'sunrise': '5:36 am' 
'wind': { 
direetlorn SS L270 "Deed Yr v4, "CHLL1 Ys MO 
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为 了 构建 训练 数据 集 , 使 用 了 一 个 自动 化 脚本 来 提取 2015 年 5 月 到 2016 年 1 月 的 每 日 数据 。 
其 中 的 预测 数据 可 能 不 那么 有 用 ， 因 为 模型 每 天 会 在 现 有 数据 上 重新 运行 ， 而 不 是 依赖 预测 数 
据 ， 但 肯定 会 用 到 wind.direction、wind.speed 和 wind.chill 变量 , 以 及 condition. 

















temperature 和 condition.text 变量 。 


至 于 如 何 进一步 处 理 这 些 信息 ， 有 一 种 方法 。 对 天 气 标 签 进行 独 热 编码 后 ， 有 关 天 气 状 况 的 
言 息 就 能 转化 成 类 型 变量 ,就 像 上 一 章 那 样 。 这 一 步 很 必要 。 特 征集 得 到 了 显著 扩张 ， 其 中 数据 
如 下 所 示 。 


'DisruptionInformation': { 

"Date".: L505=-2015", 

'TranslinkTwitter': [{ 
'Service': '0', 
'DisruptionIncidentCount': '4' 

2 
区 ye 
'DisruptionIncidentCount': '0' 


}] 

















} 

'BingTrafficAPI': { 
'NewIncidentCount': '1', 
'SevereIncidentCount': '1', 
'IncidentCount': '3' 

} 

'ConsumerTwitter': { 
'DisruptionTweetCount': '4' 

} 

'YahooWeather':{ 

'temp: '45' 
"tornado re vO, 
EEOpLCal StOrm nr "OT 
‘narioane rs ‘07; 
'severe thunderstorms': '0', 
'thunderstorms': '0', 
'mixed rain and snow': '0', 
'mixed rain and sleet': '0', 
'mixed snow and sleet': '0', 
'freezing drizzle': '0', 
han A 
'freezing rain': '0', 
'showers': '0', 
"Snow fliurries's "0, 
'Jight snow showers': '0', 
'blowing snow': '0', 
"SnoOW "0%, 
"Dally ss "Os 
'sleet': '0', 
dust ts Oy 
'foggy': '0', 
hase "0 
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Lemme "0 

Blteryy: 0. 

windy 0; 

uold 0,, 

oady st 

'mostly cloudy (night) 0 
"mostly cloudy (ay ”0", 
'partly cloudy (night) 0 
'partly cloudy (day)' 0 
"GLear (Dlght) WOT, 

ournry te oy 

"am (TL ot 0 

"fair (day)}': '0', 

'mixed rain angd hail': '0', 
Pio nO 

'isolated thunderstorms': '0', 
'scattered thunderstorms': '0', 
'scattered showers': '0', 
'heavy snow': '0', 

'scattered snow showers': '0', 
"Bartly .CLOouey "Ot 
'thundershowers': '0', 

'snow showers': '0', 

'isolated thundershowers': '0', 
'not available': '0'， 


} 


可 能 要 花 大 量 时 间 进 一 步 丰 富 雅 虎 天 气 API 提供 的 数据 。 如 前 所 示 , 第 一 次 运行 依旧 采用 之 
前 所 讲 的 模型 并 输入 特征 。 











如 何 进一步 处 理 这 些 数 据 值得 思考 。 本 例 中 ,重要 的 是 区 分 跨 列 数据 转换 和 
跨行 数据 转换 。 
跨 列 转换 指 的 是 ， 相 同 输入 案例 中 的 不 同 特征 变量 基于 另 一 个 变量 进行 转 
换 。 例 如 可 以 取 实 例 的 开始 日 期 和 结束 日 期 ,计算 持续 时 长 。 而 本 书 介绍 的 大 多 
数 算法 技术 并 没有 从 这 样 的 转换 中 获 益 .能 构建 非 线性 决策 边界 的 大 多 数 机 器 学 
习 技 术 往 往 会 在 对 数据 集 建 模 的 过 程 中 实现 变量 间 的 关系 编码 ,深度 学 习 技术 则 
p。 ”会 进一步 发 挥 这 种 能 力 。 这 就 是 一 些 特征 工程 技术 ( 尤其 是 基础 的 数据 转换 ) 
各 、、 不 会 为 深度 学 习 应 用 功能 带 来 多 少 提升 的 部 分 原因 。 
跨行 转换 的 一 个 典型 代表 是 数据 聚合 .例如 最 后 的 个 持续 时 间 值 的 集中 药 
势 就 是 一 个 特征 ， 通 过 对 多 行进 行 计算 得 出 。 显 然 ， 一 些 特征 可 以 通过 一 系列 逐 
列 计算 和 未 行 计算 的 组 合 得 到 ,跨行 转换 的 特别 之 处 是 ,模型 往往 很 难 通过 训练 
识别 这 种 特征 ， 即 跨行 转换 产生 的 特征 更 可 能 在 特定 情况 下 带 来 价值 
当然 , 这 些 信息 之 所 以 有 意义 ,是 因为 对 近期 天 气 进行 跨行 运算 后 得 出 的 特 
征 也 许 能 给 模型 带 来 新 信息 。 例 如 最 近 放 小 时 内 的 气压 或 温度 变化 可 能 比 当 前 气 
压 或 温度 更 有 用 。( 尤其 是 模型 要 预测 当天 晚 些 时 候 的 通勤 情况 时 。) 
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然后 重新 运行 模型 。 这 一 次 的 AUC 略 有 提高 , 到 了 0.534。 混 消 和 矩阵 同样 有 所 改善 ( 见 图 7-12 )。 























图 7-12 


如 果 问 题 和 天 气 因素 有 关 , 那么 可 以 继续 研究 天 气 数据 。 增 大 方案 考虑 的 时 间 跨 度 , 将 从 各 
个 数据 源 积累 更 多 纵向 数据 ， 从 而 做 出 更 可 靠 的 预测 。 

此 时 , 最终 目 标 已 经 近 在 骨 尺 了 ! 可 以 继续 扩大 输入 数据 集 , 但 诉 诸 其 他 方法 更 为 明智 。 这 
里 有 两 种 比较 有 效 的 方案 。 











数据 科学 家 往往 会 考虑 简化 假设 。 惯 常 的 做 法 是 将 帕 累 托 原理 ( Pareto 
principle ) 应 用 于 成 本 效益 分 析 决 策 。 帕 累 托 原理 从 根本 上 阐述 了 大 多 数 情 况 遵 
循 帕 累 托 分 布 ， 即 约 80% 的 价值 (或 影响 ) 来 自 约 20% 的 输入 (或 原因 )。 这 个 
概念 在 软件 工程 中 最 为 常用 ， 因 为 可 以 作为 指导 来 提高 效率 ( 见 图 7-13 )。 


关于 时 间 和 产 出 的 帕 累 托 原 理 


花费 时 间 





关键 的 时 间 的 | 
少 部 分 人 SN 20% 





. 为 了 将 理论 付 诸 实 践 ,应 该 花 更 多 时 间 细 化 特征 工程 ,因为 还 有 一 些 技术 没 

辐 《、 有 用 过 ,还 有 一 些 特征 可 以 构造 。 此外， 还 有 一 些 方法 仍 这 里 未 涉及 ， 尤 其 是 外 

部 数据 搜索 和 模型 切换 ， 可 以 简单 尝试 一 下 。 下 一 次 运行 时 ,可 以 先 尝试 这 些 试 
错 成 本 低 但 可 能 意义 重大 的 方法 ， 再 钻研 额外 的 数据 准备 ， 这 样 做 比较 明智 。 
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行 探索 性 分 析 的 过 程 中 ,有 的 变量 非常 稀疏 。 目 前 还 不 清楚 它们 是 否 有 用 (尤其 是 对 站 


是 ee 





下 面 用 本 章 介绍 过 的 技术 测试 一 下 变量 集 。 对 问题 应 用 Lasso, 将 特征 集 简 化 为 表现 更 佳 的 


子 集 。 


模 





fromsklearn.preprocessing import StandardScaler 


scaler = StandardScaler () 

xX = scaler.fit transform(DisruptionInformation["data"]) 
Y = DisruptionInformation["target"] 

names = DisruptionInformation["feature names"] 


lasso = Lasso(alpha=.3) 
lasso.fit (x, Y) 


print "Lasso model: ", pretty_print_ linear (lasso.coef_, names, sort = True) 


这 个 输出 的 价值 立即 可 见 。 显 然 , 许多 天 气 特 征 ( 有 的 没有 充分 表现 出 来 ， 有 的 没有 给 出 对 








型 有 用 的 信息 ) 对 模型 并 无 作用 ,需要 删除 。 此 外 ,对 交通 的 聚合 并 未 产生 多 少 价值 。 虽然 可 





以 暂时 保留 它们 (但 愿 数 据 量 的 提升 能 增强 它们 的 作用 ), 但 下 次 运行 模型 时 将 删 掉 LASSO 暴露 


出 的 评分 较 低 的 那些 特征 。 


T 





这 里 可 以 做 一 个 试验 成 本 很 低 的 尝试 : 升级 模型 ， 。 从 而 逼近 任何 


函数 。 这 个 改变 很 值得 尝试 ， 因为 一 些 特征 表现 出 了 一 系列 偏 斜 分 布 ,这 表示 存在 潜在 的 非 线 性 
趋势 。 下 面 对 该 数据 集 应 用 随机 森林 ， 如 下 所 示 。 








fromsklearn.ensemble import RandqomForestClassifier， 

ExtraTreesClassifier 

rf = RandomForestRegressor(n jobs = 3, verbose = 3, n_ estimators=20) 
rf.fit(DisruptionIinformation train.targets,DisruptionIinformation train.data) 


r2 = r2_score(DisruptionInformation.data, rf.predict( 
DisruptionInformation.targets)) 

mse = np.mean( (DisruptionInformation.data - rf.predict!( 
DisruptionInformation.targets))**2) 


pl.scatter (DisruptionInformation.data, rf.predict( 

DisruptionInformation.targets)) 

pl.plot (np.arange(8, 15), np.arange(8, 15), label="r^2=" + str(r2), 
Ey 

pl.legend(loc="lower right") 

pl.title("RandomForest Regression with scikit-learn") 

pl.show() 


然后 再 看 看 混淆 矩阵 ( 见 图 7-14 ) 
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预测 | 











图 7-14 


效果 相当 不 错 ， 模 型 的 简单 升级 带 来 了 显著 提升 。 虽 然 对 于 少量 实例 ， 模 型 未 能 正确 分 类 ， 
但 已 能 正确 识别 出 近 40% 的 通勤 延迟 事件 了 ( 变 得 有 用 了 )。 


然而 该 模型 还 是 会 给 出 错误 的 指导 (会 导致 不 必要 的 早起 )。 当然, 判断 模型 质量 的 标准 是 ， 
模型 正确 预测 的 通勤 延误 是 否 比 导致 的 错误 (不 必要 的 早起 ) 更 多 。 如 果 继 续 在 一 段 时 间 内 收集 
寺 征 数据 ,模型 就 可 能 达到 该 目标 。 该 模型 的 主要 缺点 是 可 取样 的 实例 太 少 ， 毕 竞 通 勤 中 断 事件 
本 和 刁 就 很 少 。 


但 已 经 成 功 从 不 同 数据 源 收集 并 整理 了 一 系列 数据 , 通过 免费 可 用 的 数据 构建 模型 , 带 来 了 
可 见 的 现实 收益 〈 使 上 班 迟到 的 次 数 降低 了 40% )。 这 当然 是 值得 高 兴 的 成 果 ! 








































































































7.4 扩展 阅读 


关于 特征 选择 入 门 ， 推 荐 阅读 Ando Sabaas 对 各 种 特征 选择 技术 的 四 步 探索 ( http://blog 
datadive.net/selecting-good-features-part-i-univariate-selection/ ) }。 文 中 包含 Python 代码 片段 和 清晰 
易 懂 的 注释 。 

有 关 第 6 章 和 第 7 章 对 特征 选择 和 特征 工程 的 讨论 ， 参 见 Alexandre Bourhard-C6té 的 文档 
(http:/people.eecs.berkeley.edu 人 jordan/courses/294-fall0gVlectures/feature/slides.pdf ) 以 及 Jeff Howbert 
的 文档 ( http://courses.washington.edu/css490/2012.Winter/lecture_slides/05a_feature_creation selection.pdf )。 


本 章 没有 涵盖 特征 构造 的 方方面面 。 许 多 资料 讨论 的 多 是 降 维 技术 和 特定 领域 的 特征 构造 技 
术 。 建 议 阅读 代码 文档 , 以 全 面 了 解 各 种 特征 转换 技术 。 在 现 有 知识 的 基础 上 , 可 以 阅读 Spark ML 
的 特征 转换 算法 文档 ( https://spark.apache.org/docs/1.5.1/ml-features.html#feature-transformers )， 它 
描述 了 针对 数值 型 特征 和 文本 特征 的 多 种 特征 转换 技术 。 但 要 记 住 , 特征 构造 往往 针对 特定 问题 
和 特定 领域 , 而 且 创 造 性 极 强 。 当 掌握 了 一 系列 技术 后 , 接 下 来 要 做 的 就 是 针对 当前 问题 合理 应 
用 这 些 技术 。 


如 果 对 超 参 数 优化 感 兴趣 ， 建 议 阅 读 Alice Zheng 在 Turi 的 博客 上 发 表 的 文章 (How to Evaluate 
Machine Learning Models, Part 4: Hyperparameter Tuning )， 这 是 一 个 不 错 的 开端 。 


关于 网 格 搜索 技术 ， 可 以 参考 scikit-learn 的 文档 。 
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7.5 小结 


本 章 介绍 并 应 用 了 一 些 技术 。 这些 强大 的 技术 可 以 基于 极 少 的 初始 数据 , 为 机 器 学 习 高 效 构 
建 数 据 集 并 进行 处 理 , 还 能 使 看 似 简单 的 数据 集 进 发 出 无 限 可 能 。 本 章 用 一 些 客服 相关 推 文 构造 
了 一 个 通勤 中 断 预 测 锅 ， 展 示 了 这 些 技术 的 强大 。 


为 了 使 解决 方案 切实 可 用 , 还 需要 添加 一 些 功 能 。 删除 倒数 第 二 步 中 的 一 些 地 址 的 做 法 有 点 
问题 。 如 果 解 决 方案 是 为 了 预知 交通 中 断 风 险 , 那 删除 地 点 的 做 法 似乎 并 不 可 取 , 特别 是 缺乏 全 
年 数据 ， 因 而 无 法 识别 季节 性 或 纵向 趋势 ( 比如 长 期 的 维护 工作 或 计划 内 的 站 点 关闭 ) 时 更 是 如 
此 。 删 除 这 些 元 素 有 些 草 率 ， 建 议 多 保留 一 段 时 间 。 

出 于 这 些 顾虑 ， 我 们 应 该 意识 到 ， 在 解决 方案 中 引入 动态 机 制 很 有 必要 。 当 春天 再 次 到 来 ， 
数据 集 开始 包含 新 的 天 气 条 件 时 , 模型 很 可 能 无 法 像 以 前 那样 高 效 适 应 了 。 下 一 章 将 介绍 如 何 构 
建 更 复杂 的 集成 模型 ， 以 及 提升 模型 稳健 性 的 方法 。 



























































第 8 章 


集成 方法 








前 几 章 介 绍 了 一 些 新 技术 , 包括 几 种 高 级 机 咒 学 习 算 法 和 许多 配套 技术 , 可 实现 高 效 的 特征 
选择 和 特征 准备 。 本 章 旨 在 用 集成 方法 增强 现 有 的 技术 。 集 成 方法 是 指 将 多 个 模型 组 合 在 一 起 ， 
以 解决 实际 问题 。 


集成 技术 现 已 是 数据 科学 家 的 常用 方法 。 在 机 器 学 习 技 术 百 花 竞 放 的 背景 下 , 使 用 集成 方法 
已 成 常态 ， 而 且 集 成 方法 对 于 很 多 领域 都 不 可 或 缺 。 本 章 将 介绍 的 技术 可 以 大 幅 提升 模型 性 能 ， 
并 提升 模型 面 对 潜在 数据 变化 的 稳健 性 。 


本 章 将 介绍 一 系列 集成 技术 , 探讨 这 些 技术 的 代码 和 应 用 , 还 将 以 现实 应 用 作为 参考 来 深化 
内 容 讲解 ， 其 中 包括 Kaggle 优胜 者 构建 的 模型 。 


本 章 开发 的 各 个 模型 都 有 助 于 解决 许多 数据 问题 , 但 将 模型 应 用 于 生产 会 产生 一 些 额外 的 问 
题 ， 所 得 的 解 还 是 容易 受到 基础 观测 改变 的 影响 。 如 果 在 不 同 群体 、 时 间 变 化 ( 比如 有 季节 性 变 
化 的 现象 ) 或 基础 条 件 变化 中 , 模型 结果 表现 一 致 ， 这 说 明 模 型 在 有 限 的 数据 条 件 下 实现 了 很 好 
的 泛 化 ， 并 能 够 保持 优越 的 性 能 。 


本 章 最 后 会 介绍 如 何 将 本 书 所 讲 的 技术 付 诸 实践 , 以 及 如 果 和 希望 应 用 能 够 适应 变化 , 那么 需 
要 考虑 保持 额外 的 监测 和 维护 。 









































“赢得 机 器 学 习 比 赛 的 方法 是 : 将 他 人 的 成 果 集 成 其 中 。” 

Vitaly Kuznetsov NIPS2014 
在 机 器 学 习 中 ,集成 模型 指 的 是 用 于 解决 同一 个 问题 的 一 套 模型 。 它 包含 两 部 分 : 一 组 模型 

以 及 设 定 的 如 何 将 多 个 模型 结果 进行 融合 的 一 套 规则 。 
针对 给 定 问 题 , 数据 科学 家 设计 出 多 种 解决 方案 , 取 每 种 方案 之 精髓 ,构造 出 最 终结 果 ， 这 

就 是 集成 。 这 样 做 提高 了 模型 应 对 噪声 的 稳健 性 , 这 一 点 表现 在 模型 在 初始 数据 集 上 更 有 效 地 进 
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行 训练 ( 降低 过 度 拟 合 的 可 能 性 并 减少 训练 误差 )， 也 更 能 应 对 前 面 提 及 的 数据 变化 问题 。 
毫 不 夸张 地 说 ， 集 成 算法 是 机 器 学 习 领 域 近 期 最 重要 的 进展 。 
另外 ,集成 算法 有 助 于 灵活 解决 问题 ， 因 为 它 允 许 数据 科学 家 测试 解 的 不 同 部 分 ,并 解决 针 
对 输入 数据 子 集 或 所 使 用 模型 的 一 部 分 的 问题 ， 而 无 须 调整 整个 模型 。 稍 后 将 看 到 ,这 大 大 简化 
了 工作 。 
根据 使 用 的 决策 规则 性 质 ， 集 成 算法 通常 可 分 为 以 下 几 类 。 
口 平均 法 : 并 行 构建 多 个 模型 ， 然 后 用 平均 或 投票 技术 生成 集成 估计 器 。 
口 堆 又 法 (或 混合 法 ) : 将 多 个 分 类 吉 的 输出 进行 加 权 ， 作 为 下 一 层 模 型 的 输入 项 。 
口 提升 法 : 依次 构建 模型 ， 添 加 的 每 个 模型 都 以 提高 集成 估计 器 的 评分 为 目标 。 


根据 这 几 种 集成 方法 的 重要 性 和 实用 性 ， 下 面 依次 说 明 : 原理 讲解 、 算 法 选择 和 实际 案例 。 




































































8.1.1 理解 平均 集成 

平均 集成 在 自然 科学 和 统计 建 模 领 域 应 用 已 入， 常见 应 用 包括 分 子 动力 学 和 声 频 信和 号 处 理 。 
这 种 集成 法 通常 能 很 好 地 反映 给 定 系统 的 完整 情况 。 各 情况 间 的 均值 和 方差 是 整个 系统 的 关键 
值 。 

在 机 器 学 习 领 域 , 平均 集成 指 的 是 在 同一 个 数据 集 上 训练 的 一 系列 模型 ,结果 以 多 种 方式 聚 
合 。 根 据 实现 目标 的 不 同 ， 平均 集成 可 以 带 来 许多 好 人 处。 

平均 集成 可 以 缓解 模型 表现 的 不 稳定 。 常 用 方法 包括 设计 多 个 模型 配置 方案 , 每 一 个 都 将 不 
同 的 参数 子 集 作为 输入 项 。 采 用 该 方法 的 技术 统称 为 “有 放 回 取样 算法 ”( bagging )。 

1. 使 用 bagging 


不 同 bagging 实现 的 运行 方法 不 同 ,但 都 使 用 特征 空间 的 随机 子 集 。bagging 方法 主要 有 4 类 。 
无 放 回 取样 ( pasting ) 是 指 提取 样本 的 随机 子 集 而 不 再 放 回 。 如 果 放 回 ， 就 叫 作 bagging。 

将 实例 按照 特征 进行 采样 时 ,该 方法 叫 作 随 机 子 集 。 随 机 子 集 法 的 功能 稍 有 不 同 ,可 以 让 我 
们 免 于 高 度 优化 大 量 特征 选择 。 这 种 转变 使 得 单 模 型 能 拥有 最 佳 输入 集 , 而 随机 子 集 法 则 允许 多 
种 模型 配置 方案 并 行 ， 然 后 将 每 个 解 的 方差 进行 平均 。 
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虽然 集成 缓解 模型 性 能 不 稳定 的 做 法 似乎 会 影响 模型 性 能 , (很 多 人 对 此 的 
直接 反应 是 ,为 什么 不 只 是 找 出 集成 中 表现 最 佳 的 那个 模型 ? ) 但 这 种 方法 其 实 
、 ”还 有 很 多 优点 。 

首先 ， 如 前 所 述 ， 取 平均 能 提升 模型 集 适应 陌生 噪声 的 能 力 ( 即 降低 过 度 拟 
一 合 ) 其 次 ， 集 成 模型 可 以 针对 输入 数据 集 的 不 同 特点 高 效 建 模 。 这 是 机 器 学 习 
大 赛 中 的 常用 方法 ,数据 科学 家 会 基于 分 类 结果 和 失败 案例 的 特定 类 型 来 反复 调 
整 集 成 。 有 时 检验 模型 结果 需要 考虑 周全 ( 通常 作为 正常 迭代 模型 开发 过 程 的 一 

部 分 )， 但 许多 数据 科学 家 会 有 一 些 偏爱 的 、 会 优先 采用 的 技巧 或 解决 方案 。 











随机 子 集 法 非常 强大 , 尤其 是 可 以 用 大 量子 集 来 详尽 地 检验 特征 的 组 合 。 但 随机 子 集 法 的 使 
用 成 本 随 数据 集 规模 的 增 大 而 呈 非 线性 增长 ,超过 某 个 点 后 ,对 于 构造 大 量子 集 的 算法 来 说 , 测 
试 每 种 模型 配置 方案 的 成 本 将 非常 高 昂 。 


最 后 , 可 以 使 用 一 种 名 为 随机 补丁 的 方法 , 该 方法 根据 从 样本 和 特征 中 提取 的 子 集 构成 集成 
估计 器 。 在 类 似 的 情况 下 , 随机 补丁 的 效果 往往 和 随机 子 集 技术 的 效果 相近 , 但 能 大 幅 减少 内 存 
消耗 。 

介绍 完 bagging 集成 方法 背后 的 原理 后 ， 下 面 着 手 实现 。 以 下 代码 描述 了 用 skleam 的 
BaggingClassifier 类 实现 的 基于 随机 补丁 的 分 类 能 。 

from sklearn.cross_validation import cross_val_score 


S 
from sklearn.ensemble import BaggingClassifier 
from sklearn.neighbors import KNeighborsClassifier 
S 
S 

















from sklearn.datasets import load digits 
from sklearn.preprocessing import scale 


digits = load_ digits () 
data = scalel(digits.data) 
Xx = 

y = digits.target 





bagging = BaggingClassifier (KNeighborsClassifier(), max_samples=0.5, 
max_features=0.5) 

scores = cross_val_score(bagging, XxX, y) 

mean = Scores.mean () 

print (scores) 

print (mean) 


与 许多 sklearn 分 类 器 相同 ， 所 需要 的 核心 代码 非常 简单 ， 能 够 初始 化 分 类 器 并 对 数据 集 评 
分 即 可 。 交 叉 验 证 (通过 cross_val_score 实现 ) 对 计算 复杂 度 的 影响 很 小 。 











bagging 分 类 器 以 天 近邻 分 类 器 ( KNeighboursclassifier ) 为 基础 ， 并 将 针对 特征 和 案 
例 的 抽样 率 均 设置 为 50%。 在 手写 数字 数据 集 上 取得 了 优异 的 成 绩 : 交叉 验证 后 , 数据 的 平均 分 
类 正确 率 达 到 了 93%。 
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[ 0.94019934 0.92320534 0.9295302 ] 


0.930978293043 


2. 使 用 随机 森林 

平均 集成 技术 的 替代 方法 统称 为 “随机 森林 "”。 它 可 能 是 参加 比赛 的 数据 科学 家 使 用 的 最 成 
功 的 集成 技术 。 该 技术 可 以 实现 并 行 的 几 套 决策 树 分 类 器 。 对 分 类 器 构造 引入 两 种 主要 的 随机 性 “ 
后 , 森林 最 终 会 包含 不 同 的 树 。 用 于 构造 每 棵 树 的 数据 是 对 训练 集 进 行 有 放 回 抽样 得 到 的 , 同时 ， 
树 的 构造 过 程 不 再 使 用 所 有 特征 的 最 佳 分 割 ， 而 是 选择 特征 随机 子 集 的 最 佳 分 割 。 


可 以 用 sklearn 的 RandomForestclassifier 类 轻松 调用 随机 森林 。 如 以 下 代码 所 示 。 









































import numpy as np 

from sklearn.ensemble import RandomForestClassifier 
from sklearn.datasets import load_ digits 

from sklearn.preprocessing import scale 


digLit8 = oad diogLtS:() 
data = scale(digits.data) 


n_samples, n_features = data.shape 
n_digits = len(np.unique (digits.target)) 
labels = digits.target 


clf = RandomForestClassifier(n estimators=10) 
clf = clf.fit(data, labels) 

scores = clf.score(data,labels) 

print (scores) 


该 集成 模型 输出 的 分 数 为 0.999， 这 很 信人 。 确 实 ， 前 几 章 应 用 的 任何 单个 模型 从 未 达到 过 
这 样 的 效果 。 

随机 森林 的 变 体 极端 随机 树 使 用 相同 的 特征 随机 子 集 法 ， 在 树 的 每 个 分 支 处 选择 最 佳 分 割 ， 
然而 该 方法 还 会 将 分 类 的 国 值 随机 化 。 决策 树 往往 会 选择 类 间 最 有 效 的 分 割 , 极端 随机 树 则 会 按 
随机 值 进行 分 割 。 


由 于 决策 树 的 训练 相对 高 效 , 随机 森林 算法 的 内 部 会 生成 大 量 树 , 这 使 得 分 类 顺 可 以 随 着 节 
点 数 的 增加 而 提高 性 能 。 引 入 的 随机 性 能 增强 模型 对 噪声 或 数据 变化 的 稳健 性 。 但 像 前 面 讲 过 的 
bagging 算法 那样 ， 这 种 稳健 性 的 提升 往往 伴随 着 效果 的 轻微 下 降 。 对 极端 随机 树 而 言 ， 随 着 稳 
健 性 的 增强 ,模型 的 性 能 测度 会 进一步 提高 ( 通常 是 偏差 值 降低 )。 


以 下 代码 展示 了 极端 随机 树 在 实践 中 的 应 用 方法 。 这 段 代码 与 随机 子 集 实现 一 样 简单 。 下 面 
建立 一 组 模型 来 比较 极端 随机 树 和 随机 森林 在 树 的 生成 方面 的 区 别 。 






























































@ 即 实例 的 随机 性 和 特征 的 随机 性 。 一 一 译 者 注 











from sklearn.cross_validation import cross_val_score 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.ensemble import ExtraTreesClassifier 
from sklearn.tree import DecisionTreeClassifier 

from sklearn.datasets import load digits 

from sklearn.preprocessing import scale 


digites ="10ad digite() 
data = scale(digits.data) 
xX = data 

y = digits.target 


clf = DecisionTreeClassifier(max_ depth=None, min_samples_split=1, 
random_state=0) 

scores = cross_val_score(clf, XxX, y) 

print (scores) 


clf = RandomForestClassifier(n estimators=10, max_depth=None, 
min_samples_split=1, random state=0) 

scores = cross_val_score(clf, XxX, y) 

print (scores) 


clf = ExtraTreesClassifier(n estimators=10, max_depth=None, 
min_samples_split=1, random state=0) 

scores = cross_val_score(clf, XxX, y) 

print (scores) 


分 数 如 下 所 示 。 


[ 0.74252492 0.82136895 0.75671141] 
[ 0.88372093 0.9015025 0.8909396 ] 
[ 0.91694352 0.93489149 0.91778523] 


由 于 应 用 的 是 完全 基于 树 的 方法 ,评分 仅 表示 标记 正确 的 实例 比例 。 可 以 看 到 ， 两 种 森林 方 
法 区 别 不 大 ， 表 现 都 极 佳 ， 平 均 分 数 为 0.9。 在 本 例 中 ， 随 机 森林 其 实 险胜 极端 随机 树 〈 约 高 出 
0.002 )， 但 两 种 技术 都 明显 优 于 基础 决策 树 (平均 分 数 为 0.77 )。 

随机 森林 的 一 个 缺点 (尤其 随 着 森林 规模 的 增 大 ) 是 , 检验 某 次 模型 的 实现 或 微调 的 效果 会 
很 难 。 虽 然 一 棵 树 容 易 处 理 ,， 但 集成 算法 所 包含 的 数量 众多 的 决策 树 和 随机 分 割 引 起 的 困惑 ， 会 
令 随机 森林 的 实现 难以 优化 。 克 服 该 缺点 的 方法 之 一 是 , 关注 单个 模型 绘制 的 决策 边界 。 通 过 比 
较 集 成 算法 包含 的 所 有 模型 ， 便 于 判断 一 个 模型 能 否 比 其 他 模型 分 类 更 准确 。 


对 于 本 例 ， 无 须 深 究 具 体 细节 ， 就 能 通过 一 种 巧妙 的 方式 轻松 了 解 模型 的 效果 ( 见 图 8-1 )。 
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基于 车 尾 花 数 据 集 的 特征 子 集 的 分 类 器 比较 
随机 森林 极端 随机 树 














尽管 在 更 高 层次 ( 即 通过 高 级 绘图 技巧 和 汇总 得 分 情况 ) 理 解 随机 森林 实现 的 效果 不 太 容 易 ， 
但 付出 是 值得 的 。 随 机 森林 的 效果 非常 好 ， 只 需要 在 计算 方面 多 投入 一 点 成 本 。 该 技术 适用 于 问 
题 早期 ， 有 助 于 确定 方向 和 手段 ， 因 为 该 技术 能 立即 产生 强 有 力 的 结果 ,可 以 提供 一 个 有 用 的 基 
准 。 介 绍 完 如 何 实 现 随机 森林 后 ， 下 面 可 以 优化 并 扩展 集成 算法 了 。 


应 继续 探索 不 同 的 集成 技术 ， 丰 富 自己 的 集成 方法 。 


8.1.2 ”应 用 提升 法 

构建 集成 模型 的 另 一 种 方法 是 构建 boosting 模型 ， 即 依次 使 用 多 个 模型 ， 友 代 地 “提升 ”或 
改善 集成 模型 的 效果 。 

boosting 模型 常用 一 些 弱 学 习 器 ( 即 仅 比 随机 猜测 效果 稍 好 一 点 的 模型 ), 每 次 迭代 时 , 一 个 
新 的 弱 学 习 絮 会 在 调整 后 的 数据 集 上 进行 训练 。 经 过 多 次 迭 代 后 , 集成 算法 会 在 每 次 迭代 时 生成 
一 棵 新 树 ( 可 用 于 提高 集成 模型 的 性 能 得 分 )。 

AdaBoost 可 能 是 最 知名 的 boosting 法 了 。 通 过 以 下 方法 ， 它 能 在 每 次 迭代 时 调整 数据 集 。 
口 选择 一 个 决策 树桩 ( 即 通常 只 有 一 层 的 浅 决 策 树 ， 本 质 上 是 问题 中 的 数据 集 的 最 显著 决 
策 边界 )。 
口 增 大 决策 树桩 错误 标签 的 实例 的 权重 ， 同 时 降低 正确 标签 的 实例 的 权重 。 
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该 迭代 的 权重 调整 过 程 导 致 集成 模型 中 的 每 个 新 分 类 器 都 会 优先 训练 ( 上 次 迭代 ) 标签 错误 
的 实例 。 模 型 根据 针对 高 权重 的 数据 点 进行 调整 。 最 后 ， 所 有 决策 树桩 合并 成 最 终 的 分 类 器 。 


AdaBoost 既 能 用 于 分 类 ， 又 能 用 于 回归 ， 而 且 效 果 都 十 分 惊 抱 。 以 下 示例 展示 了 AdaBoost 
在 heart 数据 集 上 的 应 用 。 


import numpy as np 





from sklearn.tree import DecisionTreeClassifier 

from sklearn.ensemble import AdaBoostClassifier 

from sklearn.datasets.mldata import fetch mldata 
from sklearn.cross_validation import cross_val_score 


n_estimators = 400 
# A learning rate of 1. may not be optimal for both SAMME and SAMME.R 
learning_ rate = 1. 


heart = fetch mldata("heart") 
xX = heart.data 


y = np.copy (heart .target) 
Y[y==-1]=0 
其 七 忆 BE YY test ="XLL1989s] ;YL189d 


XxX train, y train = X[:189], Y[:189] 


dt_stump = DecisionTreeClassifier (max depth=1, min_ samples_leaf=1) 
dt_stump.fit (x train, y_train) 
dt_stump_err = 1.0 - dt_stump.score(X test, y_test) 


dt = DecisionTreeClassifier(max depth=9, min samples_leaf=1) 
dt.fit(x train, y_train) 
dt_err = 1.0 - dt.score(X_ test, y_test) 


ada_discrete = AdaBoostClassifier!( 
base_estimator=dt_stump, 
learning_rate=learning_rate, 
n_estimators=n_ estimators, 
algorithm="SAMME") 

ada_discrete.fit(X train, y_train) 


scores = cross_ val_score(ada discrete, XxX test, y_test) 
print (scores) 

means = scores.mean() 

print (means) 


在 本 例 中 ，n_estimators 参数 决定 所 需 的 弱 学 习 器 的 数量 。 如 果 使 用 的 是 平均 法 ,那么 添 8 
加 估计 器 会 一 直 降 低 模型 的 偏差 ,同时 会 提升 模型 对 训练 数据 过 度 拟 合 的 概率 。base_estimator 
参数 可 以 定义 不 同 的 弱 学 习 器 ， 默 认为 决策 树 ( 由 于 训练 弱 树 非常 简单 ， 可 以 使 用 树桩 ， 即 非常 
浅 的 树 ), 如 本 例 所 示 , 将 AdaBoost 应 用 于 heart 数据 集 时 ,AdaBoost 的 正确 标签 率 达 到 了 79%， 
对 于 第 一 次 尝试 来 说 相当 不 错 了 。 
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[ 0.77777778 0.81481481 0.77777778] 


0.79012345679 


boosting 模型 有 着 平均 模型 不 具备 的 显著 优势 : 它 简化 了 识别 问题 实例 及 其 类 型 并 进行 解决 
的 过 程 。boosting 模型 往往 先 处 理 最 容易 预测 的 实例 ， 每 次 加 入 的 新 模型 则 拟 合 剩 下 的 预测 错误 
的 实例 所 构成 的 子 集 。 


这 伴随 着 一 个 风险 : boosting 法 开始 过 度 拟 合 〈 举 个 极端 的 例子 ， 集 成 模型 的 每 个 组 件 已 经 
完全 拟 合 了 特定 实例 ) 训练 数据 了 。 控制 集成 模型 组 件 在 正确 数量 是 一 个 亚 手 的 问题 ,可 以 通过 
一 项 熟悉 的 技术 来 解决 。 第 1 章 介 绍 过 一 种 名 为 “ 肘 部 法 ”的 视觉 启发 式 方法 。 当时 的 例子 用 
图 像 表 示 KK ( 均值 个 数 ) 和 聚 类 效果 的 关系 。 这 里 可 以 用 估计 器 的 数量 (2 ) 和 集成 模型 的 偏差 
率 或 误差 率 ( 下文 称 为 e) 来 执行 一 个 类 似 的 过 程 。 针 对 不 同 的 boosting 估计 器 ， 可 以 绘制 出 它 



























































们 的 输出 ， 如 图 8-2 所 示 。 
D5 
决策 树桩 错误 率 
a 决策 树 错误 率 
离散 Ada Booost 测 试 集 错 误 率 
离散 Ada Booost 训 练 集 错 误 率 
03 实数 Ada Booost 测 试 集 错 误 率 
实数 Ada Booost 训 练 集 错误 率 
率 02 有 
01 
00 
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n estimators 
图 8-2 
确定 曲线 开始 趋 平 的 点 ， 有 助 于 降低 模型 过 度 拟 合 的 风险 。 因 为 曲线 开始 趋 平时 ， 过 度 拟 合 








风险 出 现 的 可 能 性 也 会 增长 。 原 因 其 实 很 简单 : 趋 平 的 曲线 代表 每 个 新 增 的 估计 顺产 生 的 收益 越 
来 越 少 ， 即 成 功 分 类 的 实例 越 来 越 少 了 。 


这 种 视觉 辅助 有 助 于 展现 解 出 现 过 度 拟 合 的 可 能 性 。 可 以 ( 而且 应 该 ) 尽 可 能 地 应 用 验证 技 
术 ， 但 在 某 些 情况 下 ( 比如 实现 了 模型 并 想 评估 其 是 否 达到 特定 的 MVP 目标 时 ， 可 以 通过 实例 
或 Kaggle 公共 排行 榜 上 的 分 数 分 布 获知 ) 有 人 可 能 会 忍 不 住 在 一 个 表现 不 错 的 模型 上 继续 。 添 
加 新 的 估计 器 时 ， 要 准确 理解 所 获 收 益 是 如 何 减少 的 ， 这 对 于 理解 过 度 拟 合 的 风险 至 关 重 要 。 




















使 用 XGboost 


2015 年 年 中 ， 出 现 了 一 种 解决 结构 化 机 器 学 习 问 题 的 新 算法 : XGboost ( extreme gradient 
boosting， 极端 梯度 提升 法 )， 该 算法 迅速 征服 了 数据 科学 竞赛 领域 。 它 是 一 个 写 得 好 、 表 现 佳 的 
库 ， 提 供 了 一 种 泛 化 的 boosting 算法 (梯度 提升 法 )。 

XGBoost 的 运行 很 像 AdaBoost， 但 两 者 有 一 个 关键 区 别 : 改进 模型 的 方法 不 同 。 

每 次 迭代 时 ， 通 过 减少 集成 模型 的 残 差 ( 目标 和 标签 预测 的 差 )，XGboost 力图 提升 现 有 模 
型 集合 的 效果 , 以 模型 能 否 最 大 程度 降低 现 有 集成 模型 的 残 差 为 基础 来 进行 添加 。 这 与 梯度 下 降 
法 类 似 (在 梯度 下 降 法 中 ， 函 数 沿 梯度 下 降 的 反方 向 移动 而 迭代 地 最 小 化 )， 因 此 得 名 “梯度 
提升 ”。 

事实 证 明 , 梯度 提升 法 在 近 几 年 的 Kaggle 大 赛 中 表现 出 众 。CrowdFlower 大 赛 和 微软 恶意 软 
件 分 类 大 赛 ， 以 及 2015 年 下 半年 许多 其 他 结构 化 数据 比赛 的 优胜 者 都 采用 了 该 方法 。 

为 了 应 用 XGboost, 需要 先 获取 XGboost 库 。 最 佳 方法 是 通过 pip, 在 命令 行 输入 pip install 
xgboost。 对 Windows 用 户 来 说 , Windows 目前 已 无 法 安装 pip。 方便 起 见 , 可 在 本 书 的 GitHub 
库 的 Chapter 8 文件 夹 中 获取 XGboost 的 冷 备份 。 

XGboost 易于 使 用 , 本 例 将 该 库 应 用 于 一 个 多 类 别 的 分 类 任务 中 : UCI 皮肤 病 学 数据 集 ( UCI 
dermatology dataset )。 该 数据 集 包含 年 龄 变量 和 大 量 类 型 变量 。 取 一 行 数据 为 例 ， 如 下 所 示 。 

3,2,0,2,0,0,0,0,0,0,0,0,1,2,0,2,1,1,1,0,0,0,1,0,0,0,0,0,0,0,0,1,0,10,2 

年 龄 值 (倒数 第 二 个 特征 ) 有 少量 缺失 ， 编 码 为 ?。 处 理 该 数据 集 旨 在 判断 皮肤 状况 属于 6 
类 中 的 哪 一 种 ，6 类 皮肤 状况 的 分 布 如 下 所 示 。 


Database: Dermatology 






















































































Class code : Class: Number of instances: 
1 psoriasis 112 

2 seboreic dermatitis 61 

3 lichen planus 72 

4 pityriasis rosea 49 

5 cronic dermatitis 52 

6 pityriasis rubra pilaris 20 











加 载 数 据 ， 并 按 7 : 3 的 比例 将 数据 分 割 成 训练 集 和 测试 集 ， 对 该 问题 应 用 XGboost。 


import numpy as np 
import xgboost as xgb 





data = np.loadtxt('./dermatology.data', delimiter=',', 
converters={33: lambda x:int (x == '?'), 34: lambda x:int (x)-1 } ) 
sz = data.shape 
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Lrains datal ine (slo 07 
Gest, = "qatarnt(s2L0 Og) ty 


Cra x se EET; 033] 
Cralm Ye. tralml:y .34 
test_ x test[:,0:33] 





EeeS 区 


这 样 就 对 模型 进行 了 初始 化 和 参数 配置 。eta 人 参数 定义 了 步 长 收缩 。 在 梯度 下 降 算 法 中 , 收 
缩 参 数 常用 于 确定 一 次 更 新 的 规模 “。 梯 度 下 降 算 法 容易 〈 尤 其 是 接近 收敛 时 ) 在 最 优 值 附 近 上 
下 波动 , 通过 收缩 参数 来 降低 变动 规模 ,可 以 使 梯度 下 降 结果 更 精准 。 常 用 的 ( 默认 ) 值 是 0.3， 
本 例 中 的 eta 设 置 为 了 0.1， 以 便 精度 更 高 (但 可 能 需要 更 多 次 迭代 )。 


max_depth 参数 直观 地 定义 了 本 例 中 所 有 树 的 最 大 深度 。 鉴 于 模型 有 6 类 输出 ， 所 以 6 是 
个 不 错 的 初始 值 。num_roung 参数 定义 了 算法 将 执行 梯度 提升 法 的 次 数 。 如 前 所 述 ， 多 类 问题 
的 类 别 数 越 多 ， 需 要 执行 梯度 提升 法 的 次 数 往往 也 就 越 多 。nthread 参数 则 定义 了 代码 将 在 多 
少 个 CPU 线程 上 运行 。 

这 里 使 用 pmatrix 结构 意 在 提升 训练 速度 并 优化 内 存 。 使 用 XGboost 时 也 可 以 考虑 使 用 该 
结构 ， 可 用 numpy .arrays 构建 。DMatrix 能 激活 watchlist 的 功能 ， 解 锁 一 些 高 级 特性 
借助 watchlist 能 监控 所 提供 列表 中 所 有 数据 的 评估 结果 。 


xg_train = xgb.DMatrix( train Xx, label=train _Y) 
xg_test = xgb.DMatrix(test_ XxX, label=test_Y) 


test[:, 34] 
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param = {} 





param['objective'] = 'multi:softmax' 

param['eta'] = 0.1 

param['max_depth'] = 6 

param['nthread'] = 4 

paraml nom olass’], =* 6 

watchlist = [ (xg_train,'train'), (xg_test, 'test') ] 
num round = 5 

bst = xgb.train (param, xg_train, num round, watchlist ); 




















训练 模型 bst 来 生成 一 个 初始 预测 。 然 后 重复 训练 过 程 , 并 用 softmax (通过 multi :softprob ) 
生成 一 个 预测 。 


pred = bst.predict( xg_ test ); 








gd) 与 学 习 速 率 相似 。 一 一 译 者 注 
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print ('predicting, classification error=%f' % (sum( int (pred[i]) != test_YI[i] 
for i in range(len(test_Y))) / float(len(test_Y)) )) 


param['objective'] = 'multi:softprob' 
bst = xgb.train(param, xg_train, num round, watchlist ); 


yprob = bst.predict( xg_test ) .reshape( test_Y.shape[0], 6 ) 
ylabel = np.argmax (yprob, axis=1) 


print ('predicting, classification error=%f' % (sum( int(ylabel[i]) != test_YI[i] 
for i in range(len(test_Y))) / float(len(test_Y)) )) 
8.1.3 ”使 用 堆 秋 集成 








前 面 的 传统 集成 模型 遵循 了 共同 的 设计 原则 : 包含 多 个 分 类 器 , 这 些 分 类 顺 为 拟 合 一 系列 目 
标 标 签 而 进行 训练 ， 以 及 通过 模型 投票 和 模型 提升 等 策略 生成 一 些 元 函数 的 模型 。 


集成 构建 还 有 一 种 设计 原则 ， 称 作 “ 堆 营 ” 或 “混合 ”"。 堆 荆 涉 及 多 个 模型 组 成 的 层 结构 ， 
其 中 一 层 模型 的 输出 用 作 下 一 层 模 型 的 训练 数据 。 混 合 上 百 个 不 同 模型 也 是 可 能 实现 的 。 


堆 释 集成 也 能 混合 多 个 子 混合 输出 构成 的 特征 集 ( 也 称 多 重 混合 )。 还 可 以 在 不 同 级 别 的 混 
合 或 子 混合 中 ， 从 堆 秋 集成 的 模型 中 提取 高 效 的 参数 ， 将 其 用 作 元 特征 。 


所 有 这 些 造就 了 堆 秋 集 成 技术 强大 日 可 扩充 。Kaggle Netflix 大 奖 〈 比赛 奖金 为 100 万 美元 ) 
的 获得 者 对 上 百 个 特征 运用 堆 释 集成 ， 成 效 显著 。 他 们 还 借助 了 其 他 技巧 来 提升 预测 效果 。 


口 他 们 训练 并 优化 了 集成 模型 ， 同 时 保留 了 一 些 数据 。 对 测试 集 应 用 模型 前 ， 先 用 保留 数 

据 对 集成 模型 重新 进行 训练 和 优化 。 这 种 做 法 并 不 鲜 见 ， 但 效果 很 好 ， 因 此 值得 尝试 。 

口 他 们 利用 梯度 下 降 法 进行 训练 并 将 均 方 根 误差 作为 性 能 评测 函数 。 关 键 是 ， 他 们 将 集成 
的 均 方 根 误差 ( 而 不 是 其 中 任何 模型 的 均 方 根 误差 ) 用 作 相关 性 能 指标 ( 残 差 测度 ), 无 
论 何 时 使 用 集成 ， 都 可 以 考虑 这 样 做 。 

口 他 们 使 用 了 模型 组 合 来 减少 其 他 模型 残 差 ， 比 如 基于 近邻 的 方法 就 可 以 减少 受 限 玻 尔 效 
曼 机 的 残 差 ， 前 面 介 绍 过 。 通 过 摸索 机 器 学 习 算 法 的 相对 优势 和 劣势 ， 可 以 找到 理想 的 

集成 配置 。 

口 他 们 用 大 重 交 叉 验 证 计算 了 混合 的 残 差 , 前 几 章 介绍 并 应 用 过 该 技术 。 这 避免 了 仅 使 用 同 
一 数据 集训 练 模型 并 进行 混合 的 问题 。 


赢得 Netflix 大 奖 的 Pragmatic Chaos 模型 主要 胜 在 可 高 度 定制 。 该 模型 的 出 色 表 现 源 于 密 
集 迭 代 和 创造 性 的 网 络 配 置 优化 。 男 一 个 关键 点 是 堆 芭 集成 的 基本 架构 模式 ， 如 图 8-3 所 示 。 
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堆 倒 概念 示意 图 
1 输出 值 
输出 值 
出 值 
分 类 器 | -全 作 > | | 一 > 
分 类 器 输出 值 
层次 0 层次 1 
图 8-3 








介绍 过 堆 羞 集成 运行 的 基础 知识 后 ， 下 面试 着 用 它 解 决 数据 问题 。 首 先 要 使 用 GitHub 库 中 
Chapter 8 文件 夹 下 的 plend .py 代码 。Kaggle 大 赛 的 高 分 获得 者 就 使 用 了 该 混合 代码 的 不 同 
版 本 。 


首先 看 看 堆 受 集成 如 何 解 决 现实 的 数据 科学 问题 :Kaggle 大 赛 预测 生物 反应 的 目标 是 基于 分 
子 的 化 学 性 质 构 建 模型 ， 以 预测 其 生物 反应 ， 该 模型 应 尽 可 能 高 效 。 下 面 透 过 大 赛 中 的 杰出 参赛 
者 来 了 解 堆 秋 集成 在 实际 应 用 中 的 效果 。 


在 数据 集中 ， 每 一 行 代表 一 种 分 子 ， 每 种 分 子 又 有 1776 种 描述 其 特性 的 特征 。 这 里 的 目标 
是 基于 分 子 的 性 质 预测 二 元 反应 。 


下 面 即将 应 用 的 代码 来 自 比赛 中 的 一 位 参赛 者 ， 他 用 堆肥 集成 合并 了 5 种 分 类 器 : 2 种 配置 
不 同 的 随机 森林 分 类 器 、2 种 极端 随机 树 分 类 器 ， 以 及 1 种 梯度 提升 分 类 器 。 其 中 梯度 提升 分 类 
器 的 预测 与 其 他 4 种 分 类 器 略 有 区 别 。 


重复 的 分 类 器 的 分 割 原则 稍 有 不 同 。 它 使 用 了 基尼 不 纯度 ( Gini Impurity，gini )， 基 于 问题 
的 潜在 标签 分 布 对 记录 进行 随机 标记 , 然后 度量 一 条 随机 记录 被 错误 标记 的 频率 。 另 一 棵 树 使 用 
了 信息 增益 ( 炉 )， 这 是 一 种 信息 量 测度 。 洪 在 分 支 的 信息 量 可 以 通过 编码 它 的 比特 数 来 度量 。 
用 炉 来 判断 合适 的 分 支 会 降低 分 支 的 多 样 性 , 但 值得 注意 的 是 , 粹 和 gini 标准 产生 的 结果 可 能 大 
不 相同 。 


守 下 name == ' main 






























































np.random.seed(0) 


n_folds 10 
verbose True 
shuffle = False 
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XxX, y, X_submission = Loada_dqata.1load() 
if shuffle: 
idx = np.random.permutationl(y.size) 
XS XEEdX] 
y = ylidx] 
skf = list(StratifiedKFold(y, n_folds)) 
clfs = [RandomForestClassifier(n estimators=100, n_jobs=-1, 
criterion='gini'), 
RandomForestClassifier(n estimators=100, n_jobs=-1, 
criterion='entropy'), 
ExtraTreesClassifier(n estimators=100, n_ jobs=-1， 
criterion='gini'), 
ExtraTreesClassifier(n estimators=100, n_jobs=-1, 
criterion='entropy'), 
GradientBoostingClassifier(learning rate=0.05, subsample=0.5, 
max_depth=6, n_estimators=50)] 
print "Creating train andq test sets for blending." 
dataset_blend train = np.zeros((Xx.shape[0], len(clfs))) 
dataset_blend test = np.zeros((X_submission.shape[0], len(clfs))) 
for j, clf in enumerate(clfs): 
DETNt 3 “GLE 
dataset_blend test_ j = np.zeros((X_submission.shape[0], len(skf))) 
for i, (train, test) in enumerate (skf): 
Brint "FOLd™,, 证 
XxX_train = X[train 
y_train = yl[train 
XxX_test = X[test] 
y_test = yltest] 
clf.fit(x train, y_train) 
y_submission = clf.predict proba(Xx test)[:,1] 
dataset_blend train[test, j] = y_submission 
dataset_blend test_ jl[:, i] = clf.predict proba(Xx_submission)[:,1] 
dataset_blend test[:,j] = dataset blengd test_j.mean(1) 
print 
print "Blending." 
clf = LogisticRegression() 
clf.fit(dataset_blengd train, y) 
y_submission = clf.predict_ proba(dataset_blend test)[:,1] 
print "Linear stretch of predictions to [0,1]" 
y_submission = (y_submission - y_submission.min()) / 
(Y_submission.max() - y_submission.min()) 
print "Saving Results." 


np.savetxt (fname='test.csv', X=y_submission, fmt='%0.9f') 
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如 果 将 结果 提交 到 个 人 排行 榜 , 会 发 现 名 次 相当 不 错 : 第 12 名 (共有 699 名 参赛 者 )! 当然 ， 
比赛 早已 结束 ， 事 后 的 成 绩 不 够 客观 ， 但 鉴于 代码 很 简洁 ， 这 个 结果 仍 非常 惊艳 ! 
在 实践 中 应 用 集成 
































应 用 集成 时 需要 铭记 在 心 的 是 , 目标 是 调整 集成 的 效果 , 而 不 是 调整 构成 集成 的 模型 的 效果 。 
因此 ， 所 用 方法 应 注重 构建 效果 良好 的 集成 模型 ， 而 不 是 构造 最 强 的 单个 模型 。 


对 集成 中 的 模型 的 关注 度 因 人 而 异 。 建 议 尝试 配置 不 同 或 初始 化 不 同 的 同类 模型 ( 比如 随机 
森林 )， 并 重点 关注 集成 和 构成 集成 的 元 参数 所 产生 的 效果 。 


对 于 更 环 手 的 问题 , 往往 需要 密切 关注 集成 中 的 单个 模型 。 试 着 构建 更 小 的 集成 以 解决 更 环 
手 的 问题 时 , 这 一 点 显然 是 正确 的 , 但 要 想 构 建 优良 的 集成 , 往往 需要 考虑 结构 背后 的 参数 和 算 
法 。 

如 前 所 述 , 要 持续 关注 集成 的 效果 和 集成 中 模型 的 效果 。 需 要 检查 模型 的 结果 ， 找 出 每 个 模 
型 的 优势 所 在 ,还 要 寻找 影响 集成 效果 的 相对 不 明显 的 因素 , 其 中 最 明显 的 是 模型 预测 的 相关 性 。 
通常 表现 较 好 但 不 相关 的 模型 的 集成 效果 更 佳 。 


例如 可 以 用 相关 度 度量 和 主 成 分 分 析 来 度量 数据 集 内 变量 信息 。 同 样 , 可 以 对 每 个 模型 的 预 
测 输出 应 用 皮尔 逊 相关 系数 (Pearson's correlation coefficient )， 以 理解 效果 和 模型 之 间 的 相关 性 。 


回 到 堆 受 集成 ， 集 成 的 模型 会 输出 元 特征 ,这些 元 特征 将 用 作 下 一 层 模型 的 输入 。 正 如 我 们 
会 审查 更 常见 的 神经 网 络 所 使 用 的 特征 , 需要 确保 集成 中 的 模型 输出 的 特征 可 以 很 好 地 用 作 数 据 
集 。 可 以 对 模型 的 输出 计算 皮尔 逊 相关 系数 ， 并 将 结果 用 于 模型 选择 。 


处 理 单 模型 问题 时 , 往往 需要 花 些 时 间 检 查 问题 ,并 确定 合适 的 学 习 算 法 。 如 果 要 处 理 的 是 
一 个 特征 数 适中 ( 数 十 个 ) 的 二 类 分 类 问题 ， 就 需要 视 情 况 选 择 逻辑 回归 、 支 持 向 量 机 或 其 他 算 
法 。 不 同方 法 适用 于 不 同 问题 ， 通 过 试 错 、 并 行 测试 和 体验 ( 包括 个 人 体验 和 线 上 发 布 ) 就 可 
以 根据 特定 输入 数据 明确 实现 特定 目标 的 适用 方法 。 




































































































































































描述 输入 数据 集 的 不 同 元 素 的 模型 组 合 , 以 实现 对 数据 集 的 整体 性 描述 了解 组 件 模 型 的 优 缺 点 ， 
并 对 数据 集 进 行 探索 和 可 视 化 后 ， 就 能 知道 如 何 通 过 多 次 迭代 来 高 效 地 进行 集成 了 。 


最 后 ， 在 本 阶段 ， 数 据 科学 领域 存在 许多 可 用 的 技术 。 从 业者 可 以 应 用 掌握 的 的 算法 知识 ， 
在 反复 迭代 中 设计 出 有 效 的 解决 方案 。 


这 些 解决 方案 涉及 算法 知识 、 模 型 组 合 间 的 交互 、 模 型 参数 的 调整 、 数 据 集 的 转化 和 集成 的 
处 理 。 不 受 约束 的 创造 性 思维 方式 同样 重要 。 


Kaggle 的 杰出 参赛 者 Alexander 的 作品 是 很 好 的 例子 。 可 以 研究 一 个 具体 案例 : 精油 产品 分 
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类 大 赛 ， 了 解 富 有 智慧 和 创造 力 的 数据 科学 家 会 选用 的 一 系列 方法 。 


绝 大 多 数 模 型 开发 始 于 这 样 一 个 阶段 :将 不 同 的 解 应 用 于 问题 ， 尝 试 找 出 数据 背后 的 蹊跷 ， 
并 和 弄 明 白 哪 种 奏效 。 虽然 将 XGboost 视 作 独立 的 集成 , 但 本 例 将 它 用 作 堆 受 集 成 的 一 部 分 , 以 生 
成 一 些 供 最 终 模 型 使 用 的 元 特征 。 此 外 , 还 使 用 了 神经 网 络 和 梯度 提升 树 ， 因 为 这 两 种 算法 都 能 
产生 不 错 的 结 


为 了 给 混合 增加 一 些 差异 性 , Alexander 加 入 了 一 个 近邻 模型 , 因为 天 近邻 生成 的 结果 ( 以 
及 元 参数 ) 往往 与 已 经 包含 的 模型 显著 不 同 。 选 择 输出 容易 出 现 差异 的 组 件 ,， 是 构造 高 效 堆 受 集 
成 (以 及 绝 大 部 分 集成 ) 的 关键 。 


为 了 提升 该 模型 ，Alexander 在 模型 的 第 二 层 加 入 了 一 些 定制 的 特征 元 素 。 在 组 合 XGboost 
和 神经 网 络 预 测 结 果 时 ， 他 还 在 该 层 加 入 了 bagging。 至 此 ， 该 模型 用 到 了 本 章 讲 过 的 大 部 分 技 
术 。 除 了 模型 开发 外 ， 一 些 特征 工程 ( 比如 用 TF-IDF 分 析 一 半 的 训练 数据 和 测试 数据 ) 和 识别 
类 差异 的 绘图 技术 也 贯穿 其 中 。 


结合 本 书 介 绍 的 技术 , 并 透彻 理解 基础 算法 以 及 这 些 技术 的 搭配 效果 , 在 此 基础 上 才能 构建 
出 能 解决 重大 数据 科学 问题 的 成 熟 模 型 。 

至 此 ， 本 书 教授 了 许多 基础 知识 ， 即 实践 性 知识 的 基础 ， 这 些 都 是 从 业者 必须 掌握 的 。 本 书 
还 通过 许多 现实 案例 来 展现 如 何 用 基础 知识 高 效 地 解决 难题 。 

对 于 数据 科学 家 ， 首先 要 应 用 这 些 技术 ,了解 它们 效果 怎样 、 有 何 用 途 ， 然 后 培养 高 层次 的 
创造 性 、 试 验 性 的 思维 方式 。 







































































8.2 在 动态 应 用 中 使 用 模型 


前 面 探讨 了 如 何在 相对 理想 的 条 件 下 用 技术 控制 模型 效果 。 具 体 而 言 ,前 提 条 件 是 数据 可 得 ， 
且 所 有 数据 都 可 用 于 模型 训练 。 这 些 假 设 在 研究 或 处 理 一 次 性 问题 时 通常 非常 有 效 , 但 很 多 时 候 
不 太 安 全 。 除 了 单纯 的 数据 不 可 用 外 , 还 有 其 他 隐患 。 比 如 数据 科学 大 赛 就 需要 保留 数据 集 来 建 
立 最 终 的 排行 榜 。 


回 到 前 面 的 话题 ， 回 顾 一 下 赢得 Netflix 大 奖 的 Pragmatic Chaos 算法 。 当 Netflix 开始 评估 实 
现 算法 时 ,业务 背景 和 要 求 都 已 发 生 巨变 ， 这 使 得 算法 带 来 的 微弱 的 精度 提升 ( 带 来 的 收益 ) 已 
经 比 不 上 其 实现 成 本 了 。 价值 100 万 美元 的 算法 已 经 过 时 , 不 会 再 用 于 生产 。 这 个 案例 告诉 我 们 ， 
对 商业 而 言 至 关 重 要 的 是 ， 模 型 的 适应 性 应 尽 可 能 强 。 

对 于 机 器 学 习 而 言 ， 极 具 挑 战 性 的 应 用 是 那些 数据 随时 间 (或 其 他 维度 ) 变化 的 应 用 。 在 这 
种 情况 下 , 现 有 的 运行 方法 将 价值 减损 ， 而且 对 于 数据 发 生 的 许多 变化 , 现 有 的 模型 无 法 通过 简 
单 地 训练 来 适应 。 此 时 ， 需 要 诉 诸 新 技术 和 新 信息 。 
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为 了 适应 和 收集 这 类 信息 ， 需 要 提升 预测 能 力 ， 了 解数 据 可 能 的 变化 方式 。 基 于 这 些 信息 ， 
模型 构建 和 集成 内 容 就 能 做 出 改变 ,以 适应 最 有 可 能 发 生 的 数据 变化 。 这 种 适应 有 助 于 我 们 预见 
性 地 处 理 数据 变 化 ， 缩 短 调整 时 间 。 稍 后 将 看 到 ,在 实际 应 用 中 ,无论 幅度 大 小 ,根据 数据 变化 
进行 调整 所 带 来 的 整体 调整 时 间 缩 短 是 有 价值 的 。 


下 面 将 介绍 一 些 工 具 , 可 增强 模型 对 数据 改变 的 稳健 性 , 还 将 探讨 一 些 方法 。 应 用 这 些 方 法 ， 
能 在 不 降低 模型 性 能 的 前 提 下 ， 有 多 个 模型 可 选用 ， 同 时 适应 一 种 或 多 种 数据 变化 情况 。 



































8.2.1 理解 模型 稳健 性 


准确 理解 问题 是 什么 、 如 何 解决 ， 以 及 何 时 出 现 非常 重要 。 这 包含 了 对 两 件 事 的 定义 : 一 是 
应 用 于 机 器 学 习 算 法 的 稳健 性 ,二 是 数据 变化 。 下 面 所 讲 内 容 属于 入 门 水 平 , 但 经 验 丰富 的 数据 
科学 家 仍 能 从 中 挖掘 出 一 些 价值 。 


在 专业 术语 中 ,机 器 学 习 算 法 的 稳健 性 指 的 是 , 算法 在 应 用 于 训练 数据 集 外 的 数据 集 时 的 水 


在 任何 领域 , 稳健 性 检验 都 是 机 器 学 习 方 法 论 的 核心 部 分 。 因 为 机 器 学 习 算 法 易 受 数据 变化 
的 影响 ,所 以 验证 技术 非常 重要 ， 即 便 是 最 简单 的 数据 开发 模型 ， 也 要 考虑 大 重 交 义 验 证 和 测试 
集 的 使 用 。 


绝 大 多 数 的 数据 集 包 含 信号 和 噪声 。 噪 声 有 时 可 预测 (这样 更 容易 控制 )， 有 时 却 随机 而 难 
处 理 。 数 据 集 或 多 或 少 都 会 包含 噪声 。 通 常 包 含 或 多 或 少 的 可 预测 噪声 的 数据 集会 比 删除 过 这 些 
噪声 的 相同 数据 集 更 难 训 练 和 测试 〈 这 点 很 容易 测试 )。 


在 给 定数 据 集 上 训练 模型 后 ,该 模型 会 不 可 避免 地 同时 基于 信号 和 噪声 进行 学 习 。 过 度 拟 合 
的 概念 通常 用 于 描 述 模型 对 给 定数 据 集 拟 合 过 好 ,从 而 学 会 了 同时 基于 信号 和 噪声 进行 预测 ,这 
使 得 模型 对 测试 集 的 拟 合 效果 不 如 对 训练 数据 拟 合 不 那么 精确 的 模型 。 


训练 模型 的 目的 包括 尽 可 能 降低 任何 局 部 噪声 对 学 习 的 影响 。 保留 一 些 数据 以 便 进 行 测试 的 
验证 技术 , 是 为 了 确保 训练 过 程 中 对 噪声 的 学 习 只 发 生 在 噪声 是 训练 数据 的 局 部 噪声 时 。 可 以 通 
过 训练 误差 和 测试 误差 的 区 别 来 理解 模型 的 过 度 拟 合 程度 。 


第 1 章 应 用 过 交叉 验证 。 检 验 模 型 过 度 拟 合 情 况 的 另 一 种 有 效 方法 是 ， 以 抖动 (jitter ) 的 方 
式 向 训练 数据 集 直 接 添加 随机 噪声 。2015 年 10 月 ，Alexander Minushkin 在 一 篇 Kaggle 笔记 中 曾 
述 了 这 项 技术 , 并 提 到 了 一 个 非常 有 趣 的 实验 。 实 验 的 概念 很 简单 : 通过 添加 抖动 并 观测 训练 数 
据 的 预测 精度 ， 可 以 区 分 过 度 拟 合 模型 ( 添加 拌 动 后 , 模型 的 训练 误差 会 增加 得 更 快 ) 和 拟 合 较 
好 或 较 差 的 模型 ( 见 图 8-4 )。 
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抖动 测试 中 精度 的 预期 下 降 


一 过 拟 合 模型 
-一 ， 非 过 拟 合 模型 

















图 8-4 


通过 绘制 拌 动 测试 的 结果 , 可 以 轻松 地 判断 模型 是 否 出 现 了 过 度 拟 合 。 过 度 拟 合 模型 的 初始 
情况 非常 理想 , 但 其 性 能 往往 会 随 着 小 抖动 的 加 入 而 迅速 下 降 。 对 拟 合 更 好 的 模型 而 言 ， 添 加 抖 
动 带 来 的 性 能 下 降 会 大 幅度 削弱 。 模型 内 的 过 度 拟 合 程度 在 加 入 较 少 拌 动 时 尤其 明显 ( 而 拟 合 较 
好 的 模型 的 性 能 胜 过 过 度 拟 合 模型 )。 

下 面 介 绍 如 何 实现 过 度 拟 合 的 抖动 测试 。 将 评分 accuracy_score ( 指 预测 正确 的 类 标签 
占 比 ) 作为 测试 评分 的 基础 。 拌 动 通过 (用 np.random.normal ) 单纯 对 数据 添加 随机 噪声 来 
定义 ， 噪 声 的 数量 则 由 scale 参数 的 配置 确定 。 


from sklearn.metrics import accuracy_score 




















def jitter (xX, scale): 

if scale > 0: 
return X + np.random.normal (0, scale, X.shape) 
return X 


def jitter_ test (classifier, XxX, y, metric FUNC = accuracy_score, 
sigmas = np.linspace(0, 0.5, 30), averaging N = 5): 





oo 


for s in sigmas: 
averageAccuracy = 0.0 
for x in range(averaging_N): 
averageAccuracy += metric_FUNC( y, classifier.predict (jitter (XxX, s))) 





out.append( averageAccuracy/averaging_N) 
return (out, sigmas, np.trapz (out, sigmas)) 


a 二 区 由 
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给 定 分 类 器 、 训 练 数据 和 一 组 目标 标签 的 情况 下 ，jitter_test 本 身 定义 为 了 常规 sklearn 
分 类 的 包装 器 。 然 后 调用 分 类 器 ， 基 于 经 过 jitter 运算 的 数据 进行 预测 。 


下 面 开始 构造 大 量 数据 集 来 进行 抖动 测试 , 将 用 到 sklearn 的 make_moons 数据 集 。 该 数据 集 
常用 于 对 聚 类 和 分 类 算法 的 性 能 进行 可 视 化 ， 由 两 类 组 成 ， 其 数据 点 能 够 创建 交错 的 半圆 。 对 
make_moons 数据 集 加 入 不 同 数量 的 噪声 ， 并 取 用 不 同 数量 的 样本 后 ， 就 可 以 构造 出 一 系列 示例 
案例 来 进行 拌 动 测试 了 。 


import sklearn 
import sklearn.datasets 

















import warnings 
warnings.filterwarnings ("ignore", category=DeprecationWarning) 


# 少量 噪声 ， 大 量 样本 ， 比 较 简单 

X0, y0 = sklearn.datasets.make moons(n_samples=1000, noise=.05) 
Xs.append (xX0) 
ys.append (y0) 


# 更 多 噪声 ， 大 量 样本 

Xl1, yl = sklearn.datasets.make moons(n_samples=1000, noise=.3) 
Xs.append (xX1) 

ys.appengd (y1) 


# 少量 噪声 ， 些 许 样 本 

X2, y2 = sklearn.datasets.make moons(n_samples=200, noise=.05) 
Ee 

ys.append (y2) 


# 更 多 噪声 ， 些 许 样本 ， 上 比较 困难 

X3, y3 = sklearn.datasets.make moons(n_samples=200, noise=.3) 
Xs.append (X3 ) 

ys.appendq(y3) 


完成 这 一 步 后 ， 接 下 来 要 创建 一 个 plotter 对 象 ， 用 于 展现 基于 输入 数据 直接 得 到 的 模型 


效果 。 


def plotter (modqe1l，X，Y，ax，npts=5000) : 








ea 





SS 让 ] 
ys = [] 
cs = [] 
for _ in range(npts): 
x0Ospr = max(X[:,0])-min(xX[:,0]) 
xlspr = max(X[:,1])-min(x[:,1]) 
x = np.random. and ROSE + min(x[:,0]) 
y = np.random.rand()*xlspr + min(x[:,1]) 


xs .append (x) 
ys.append (y) 
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cs.append (model.predict ([x,y])) 
ax.scatter (xs,ys,c=list (map (lambda x:'lightgrey' if x==0 else 'black', cs)), 
alpha=.35) 
ax.hold (True) 
ax.scatter (X[:,0],Xx[:,1], 
c=list(map (lambda x:'r' if x else 'lime',Y)), 
linewidth=0,s=25,alpha=1) 


ax.set_xlim([min(X[:,0]), max(X[:,0])]) 
ax.set_ylim([min(X[:,1]), max(X[:,1])]) 
return 


将 支持 向 量 机 分 类 融 用 作 拌 动 测试 的 基础 模型 。 


import sklearn.svm 
classifier = SKlearn.svm.SVC() 


allJT[str(classifier)] = list() 


fig, axes = plt.subplots (nrows=2, ncols=2, figsize=(11,13)) 
主 兰 自 
fo XY "LN LD (ey) 
classifier.fit (x,y) 
plotter(classifier,X,y,ax=axes[i//2,i%2]) 
allJT[str(classifier)].append (jitter test(classifier, XxX, y)) 
i += 1 
plt.show!() 
抖动 测试 可 高 效 评估 模型 过 度 拟 合 程度 ， 与 交叉 验证 相当 。Minushkin 通过 实践 证 明了 该 方 
法 在 度量 模型 拟 合 质量 时 比 交 又 验证 有 效 。 


这 两 种 减轻 过 度 拟 合 的 工具 适用 于 以 下 情况 : 算法 在 一 次 性 的 数据 上 运行 , 或 者 在 基本 趋势 
不 会 大 幅度 改变 的 数据 上 运行 。 这 对 大 部 分 单一 数据 集 问 题 ( 比如 大 部 分 学 术 资 源 库 数据 集 或 网 
络 资源 库 数据 集 ) 或 基本 趋势 改变 缓慢 的 数据 问题 都 很 适用 。 


然而 , 在 其 他 很 多 情况 下 ， 建 模 中 的 数据 会 随时 间 在 一 个 或 多 个 维度 上 发 生变 化 。 原因 可 能 
是 捕获 数据 的 方法 发 生 了 变化 ,而 这 通常 是 因为 新 手段 或 新 技术 的 投入 使 用 。 比 如 自 2005 年 起 ， 
由 于 视频 录制 设备 的 普及 ,视频 数据 的 分 辨 率 得 到 了 大 幅 提 升 ， 其 质量 ( 和 大 小 ) 也 提高 了 。 无 
论 是 否 将 视频 帧 本 身 或 文件 大 小 作为 参数 , 都 可 以 看 到 这 类 数据 的 特性 、 质 量 和 特征 分 布 发 生 了 
明显 转变 。 


数据 集 变 量 的 变化 也 可 能 是 基本 趋势 的 区 别 导 致 的 , 测度 和 维度 的 经 典 数据 模式 又 可 以 派 上 
用 场 了 ， 有 助 于 分 析 哪 些 维度 影响 了 测度 ， 从 而 更 好 地 了 解数 据 变化 所 受 影响 的 幅度 。 


时 间 就 是 典型 例子 。 许 多 变量 都 受制 于 星期 数 、 月 份 或 季节 性 变化 ,具体 视 情境 而 定 。 在 许 
多 情况 下 ， 一 个 有 效 的 方法 是 将 这 些 变 量 参数 化 ,，( 前 一 章 探讨 过 ， 独 热 编 码 等 技术 有 助 于 算法 
学 习 解析 这 样 的 趋势 )， 尤 其 在 处 理 易于 预测 〈 比如 月 份 对 某 地 围巾 销量 的 影响 ) 且 易 于 建 模 的 
周期 性 趋势 时 。 
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问题 更 大 的 时 间 序 列 趋势 是 非 周 期 性 变化 。 正 如 在 某 个 摄像 机 案例 中 , 某 些 时 间 序 列 趋势 会 
发 生 不 可 道 的 变化 ， 而 且 可 能 无 法 预测 。 软 件 的 遥测 容易 受到 遥测 时 软件 构建 的 质量 和 功能 的 
影响 。 当 构建 随时 间 发 生变 化 时 ,遥测 发 送 的 值 以 及 根据 这 些 值 构建 的 变量 也 会 难以 预测 ， 陡 然 
改变 。 


人 类 行为 是 许多 数据 集中 的 重要 因素 , 可 能 导致 周期 性 的 和 非 周期 性 的 数据 变化 。 人 们 在 季 
节 性 假期 前 后 往往 购物 更 多 ， 但 也 会 基于 新 的 社会 或 技术 发 展 永 久 改变 购物 习惯 。 


这 里 增加 的 一 些 复杂 性 不 仅 来 自 单个 变量 及 其 分 布 受 时 间 序 列 趋势 影响 的 事实 , 还 来 自 相 关 
因素 及 其 相关 变量 间 的 交互 影响 。 变 量 的 关系 可 能 会 发 生 可 量化 的 变化 。 比 如 人 类 的 身高 和 体重 
的 关系 因 时 间 和 地 域 的 不 同 而 不 同 。 可 以 用 BMI 特征 来 跟踪 这 种 关系 ， 在 不 同时 间 段 或 不 同 地 
域 采 样 ， 以 获知 分 布 的 差异 。 


此 外 ,变量 还 会 发 生男 一 种 变化 : 变量 对 建 模 算法 的 重要 性 可 能 会 随时 间 改 变 。 变量 的 值 在 
一 段 时 间 内 高 度 相 关 ， 但 在 另 一 段 时 间 内 相关 性 较 弱 。 例 如 气候 和 天 气 变 量 对 农业 市 场 的 影响 。 
对 于 一 些 作 物 和 交易 这 些 作物 的 企业 而 言 , 这 些 变 量 在 一 年 的 大 部 分 时 间 内 无 足 轻 重 , 但 在 作物 
生长 和 丰收 的 季节 , 这些 变量 就 会 变 得 至 关 重要 。 使 之 更 复杂 的 是 , 这些 因素 的 重要 性 也 与 地 域 
(以 及 当地 气候 ) 有关。 

至 此 ， 建 模 的 挑战 很 明确 了 。 对 于 那些 曾经 训练 过 ， 然 后 在 新 数据 上 运行 的 模型 而 言 ， 控 制 
数据 变化 伴随 着 严峻 挑战 。 对 于 那些 基于 新 的 输入 数据 动态 重新 计算 的 模型 而 言 , 数据 变化 同样 
会 引发 问题 ,因为 变量 分 布 和 变量 关系 会 变化 ,可 用 的 变量 对 生成 有 效 解 的 价值 也 会 提升 或 降低 。 

成 功 控制 机 需 学 习 应 用 中 的 数据 变化 的 关键 是 , 识别 变化 发 生 时 容易 影响 特征 分 布 、 关 系 和 
寺 征 重要 性 的 维度 ( 以 及 引发 问题 的 常见 原因 )， 良 好 的 模型 应 该 考虑 到 这 些 。 

找到 容易 影响 过 度 拟 合 的 因素 ， 就 能 更 好 地 开发 可 以 高 效 控制 这 些 因素 的 解决 方案 了 。 

话 虽 如 此 , 但 构造 能 解决 任何 潜在 问题 的 单个 模型 似乎 仍 困难 重重 。 简 而 言 之 , 如 果 出 现 了 
严重 的 数据 变化 问题 ， 或 许 需要 尝试 其 他 模型 。 下 面 将 用 集成 方法 提供 更 好 的 解 。 

识别 建 模 中 的 风险 因素 
虽然 在 许多 情况 下 ， 随 着 时 间 的 推移 ， 确 定 哪些 元 素 对 模型 构成 风险 很 简单 ,但 通过 结构 化 
的 过 程 进行 识别 也 可 能 会 有 帮助 。 下 面 简要 介绍 一 些 思 路 和 技术 , 可 用 于 保护 模型 免 受 数据 变化 
风险 的 影响 。 

大 多 数 数据 科学 家 会 保留 数据 集 的 一 份 数 据 字 上 典 , 以 用 于 一 些 常见 场景 或 自动 化 应 用 。 数据 
或 应 用 往往 很 复杂 ， 而 保留 数据 字典 通常 是 很 好 的 做 法 。 在 识别 风险 因素 时 ,浏览 这 些 特征 ， 然 
后 基于 不 同 的 风险 类 型 为 它们 添加 标签 ， 是 高 效 的 做 法 。 



























































































































































8.2 ”在 动态 应 用 中 使 用 模型 163 





常用 的 标签 如 下 所 示 。 


口 纵向 可 变 : 该 参数 在 长 期 内 是 否 容 易 发 生变 化 ?这 个 疑问 的 产生 往往 是 因为 现 有 数据 集 
的 范围 无 法 完全 展现 数据 的 纵向 趋势 。 四 季 就 是 典型 的 例子 ， 它 能 影响 许多 地 区 的 人 类 
行为 ， 还 能 影响 一 些 与 基础 气候 变量 密切 相关 的 事物 。 其 他 纵向 趋势 包括 财政 年 度 和 工 
作 月 ， 还 可 以 扩展 至 与 地 区 相关 的 其 他 许多 纵向 趋势 。 新 让 hone 模型 的 生命 周期 或 野 鼠 
的 种 群 流动 可 能 也 是 重要 的 纵向 因素 ， 这 取决 于 研究 性 质 。 

口 缓慢 变化 : 该 类 型 参数 是 否 会 随时 间 而 添加 新 值 ? 这 个 概念 借鉴 了 数据 仓库 的 最 佳 实 
践 。 传 统 意义 上 ， 缓慢 变化 的 维度 会 增加 新 的 参数 编码 ( 比如 随 着 一 家 新 店 的 开业 或 一 
个 新 案例 的 确定 )。 如 果 没 有 得 到 恰当 的 处 理 或 新 参数 过 多 ， 那 么 它们 会 彻底 颠覆 模型 。 
缓慢 变化 数据 的 另 一 种 影响 更 难处 理 ， 它 会 影响 特征 的 分 布 ， 从 而 严重 影响 模型 的 性 能 。 

口 关键 参数 : 将 数据 值 监控 和 决策 边界 /回归 方程 的 重新 计算 相 结 合 ， 往 往 能 比较 好 地 处 理 
一 些 缓慢 变化 的 数据 和 季节 性 变化 。 但 如 果 大 量 未 预料 到 的 新 案例 或 案例 类 型 出 现 ， 万 
其 是 当 它们 影响 的 变量 严重 依赖 模型 时 ， 需 要 采取 相应 行动 。 因 此 ， 还 要 清楚 哪些 变量 
最 依赖 解决 方案 。 


这 样 添加 标签 的 过 程 非常 有 帮助 〈 不 仅 是 作为 记忆 的 输出 )， 主 要 是 因为 它 有 助 于 执行 以 下 
操作 。 


口 明确 预期 并 制定 一 份 清单 ， 以 便 监 控 准 备 工 作 。 如 果 连 记录 纵向 可 变 和 参数 的 缓慢 改变 
都 无 法 做 到 ， 除 了 重新 计算 时 模型 所 侧重 的 参数 的 变化 及 其 〈 可 能 缓慢 下 降 的 ) 性 能 测 
度 ， 基 本 上 无 法 了 解 模型 的 任何 输出 了 。 

口 研究 缓解 方案 ( 比如 改进 标准 化 方法 或 增加 参数 ， 这 些 参数 将 基于 数据 维度 的 变化 进行 

编码 )。 绥 解 方 案 和 参数 的 添加 许多 时 候 是 处 理 数据 变化 的 最 佳 解决 方案 。 

口 用 构造 好 的 数据 集 进行 稳健 性 测试 ， 数 据 集中 的 风险 特征 要 有 意 地 做 出 改动 ， 以 模拟 数 
据 变化 。 在 这 些 条 件 下 ， 对 模型 进行 应 激 试验 ， 找 出 模型 能 容纳 的 变化 幅度 是 多 少 。 得 
到 这 项 信息 后 ， 就 能 轻松 而 有 把 握 地 利用 试验 结果 来 构建 早期 预警 系统 了 。 当 数据 的 变 
化 超过 特定 的 安全 阐 值 后 ， 就 能 预 估 模 型 性 能 的 下 降幅 度 了 。 















































































































































8.2.2 ”控制 模型 稳健 性 的 策略 


前 面 介绍 了 大 量 有 效 的 集成 技术 , 这 些 技术 有 助 于 模型 在 性 能 和 稳健 性 之 间 达 到 平衡 。 然 而 
在 使 用 技术 时 ， 需 要 决定 如 何以 及 何 时 降低 模型 性 能 来 增强 稳健 性 。 

的 确 , 贯穿 本 章 的 一 个 主题 是 , 如 何平 衡 自 相 冲突 的 目标 , 即 构造 一 个 高 效 、 高 性 能 的 模型 ， 
同时 该 模型 又 不 会 太 过 有 呆板 而 无 法 响应 数据 变化 。 前 面 介 绍 的 许多 解决 方案 都 是 牺牲 一 面 来 成 全 
男 一 面 ， 这 并 不 太 理 想 。 


此 时 需要 稍微 放宽 选择 ,介绍 一 些 值得 称赞 的 技术 。 发 展 中 的 商业 格局 对 稳健 、 高 效 的 统计 
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模型 的 需求 由 来 已 入, 探索 与 实现 颇 多 。 信用 风险 建 模 等 领域 有 着 悠久 的 应 用 统计 建 模 历史 ,并 
且 为 了 解决 需求 ， 发 展 出 了 有 效 的 决策 管理 方法 。 数 据 科 学 家 可 以 用 一 些 现 有 技术 来 构建 模型 ， 
为 自己 所 用 。 


其 中 一 种 高 效 方法 是 冠军 /挑战 者 测试 ( 即 A/B 测试 ), 这 是 一 种 以 测试 为 中 心 的 方法 ,涉及 
多 个 并 行 的 模型 配置 。 除 了 应 用 训练 的 模型 输出 〈 比如 指导 商业 活动 或 支持 数据 报告 ) 外 ， 
冠军 /挑战 者 测试 还 会 训练 一 个 或 多 个 备 选 模型 配置 。 


通过 维持 和 监测 多 个 模型 ， 当 替代 模型 表现 更 好 时 ,， 可 以 用 其 蔡 换 掉 正在 使 用 的 模型 。 这 通 
常 通过 计算 所 有 模型 的 性 能 评分 并 观察 结果 来 完成 , 因此 可 以 人 为 决定 是 否 以 及 何 时 切换 到 挑战 
者 模型 。 


虽然 最 简单 的 实现 可 能 是 , 挑战 者 模型 效果 超过 主 模型 时 立即 切换 到 挑战 者 模型 , 但 这 种 做 
法 其 实 很 少见 , 因为 有 的 挑战 者 模型 存在 陷入 局 部 最 小 值 的 风险 ( 比如 一 周 中 的 某 一 天 或 一 年 中 
的 某 一 月 的 局 部 趋势 )。 花 大 量 时 间 评 估 挑 战 者 模型 是 常事 ， 尤 其 当 应 用 比较 敏感 时 。 在 复杂 的 
实际 情况 中 ,甚至 可 能 需要 做 额外 的 测试 ， 即 给 有 潜力 的 挑战 者 模型 提供 案例 样本 ,判断 挑战 者 
实现 的 显著 提升 能 否 超 过 冠军 。 


除了 简单 的 “取代 挑战 者 ” 接 蔡 规则 外 ,还 有 一 些 创 新 的 空间 。 基 于 投票 的 方法 很 常用 , 训 
练 后 的 集成 中 排名 靠 前 的 子 集 逐 个 提供 分 数 ， 这 些 分 数 就 作为 《加 权 或 不 加 权 的 ) 投票 。 另 一 种 
方法 需要 使 用 波 达 计 数 法 (Borda count )。 这 是 一 种 投票 系统 ， 每 个 投票 者 按照 喜好 给 参赛 的 解 
决 方案 排序 。 在 集成 的 情况 下 ,往往 会 给 每 个 单独 模型 的 预测 分 配 一 个 点 值 ， 该 点 值 等 于 其 逆 排 
名 (保持 每 个 模型 独立 ), 然后 将 这 些 投票 组 合 起 来 ( 通常 要 尝试 一 系列 不 同 的 权重 ) 生成 一 个 
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在 使 用 大 量 模型 时 , 投票 可 以 表现 得 相当 好 , 但 这 取决 于 具体 的 建 模 环境 及 不 同 投票 者 间 的 
相似 性 等 因素 。 如 前 所 述 ,关键 是 要 使 用 皮尔 逊 相 关系 数 这 种 测试 ,来 确保 模型 集 表现 良好 且 不 
相关 。 


有 时 输入 数据 的 特定 类 ( 比如 附带 具体 分 类 标签 的 用 户 ) 用 给 定 的 挑战 者 处 理会 更 加 高 效 ， 
而 且 可 以 实现 一 个 路 由 系统 , 其 中 多 个 冠军 处 理 不 同 的 用 户 子 群 。 这 种 方法 和 提升 集成 法 的 优势 
有 些 重合 , 但 能 通过 区 分 关注 点 的 方式 在 生产 环境 中 发 挥 作用 。 然 而 ,维护 多 个 冠军 会 增加 数据 
团队 监测 和 管理 的 负担 ， 因 此 ， 除 非 必要 ， 最 好 避免 使 用 该 方法 。 

需要 考虑 的 主要 问题 是 ， 如何 对 模型 评分 ,这 也 是 迫切 的 现实 挑战 。 尤 其 是 很 难 在 现实 情境 
中 比较 多 个 模型 ， 因 为 通常 没有 类 标签 ( 用 于 指导 正确 性 )。 在 预测 情境 中 ， 通 常会 用 冠军 模型 
的 预测 指导 行动 ， 这 会 影响 预测 事件 , 使 得 该 问题 更 加 复杂 ,难以 判断 挑战 者 模型 的 预测 效果 如 
何 。 如 有 果 基 于 冠军 模型 的 预测 采取 行动 ， 就 无 法 确定 模型 的 结果 。 


常规 的 实现 过 程 是 , 给 每 个 挑战 者 模型 提供 一 个 可 统计 的 输入 数据 样本 , 然后 比较 两 种 方法 
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的 提升 效果 。 这 种 方法 本 质 上 会 限制 用 于 帮助 解决 建 模 问题 的 挑战 者 的 数量 。 另 一 种 选择 是 在 数 
据 处 理 的 过 程 中 特意 保留 一 个 可 统计 的 样本 , 并 用 该 样本 构造 一 个 回归 检验 。 对 所 有 冠军 模型 和 
挑战 者 模型 进行 检验 ， 可 以 为 比较 提供 一 个 有 意义 的 基础 。 


该 方法 的 痊 端 是 , 无 论 为 测试 用 例 生成 正确 的 类 标签 需要 多 长 时 间 , 高 效 模型 始终 需要 随 数 
据 变动 而 更 改 。 虽 然 在 很 多 情况 下 这 个 弊端 并 不 致命 ( 冠军 模型 在 生成 精确 模型 期 间 仍然 起 效 ) 
但 相对 于 模型 训练 时 间 ， 数 据 的 基本 条 件 改变 过 快 仍 会 引发 很 多 问题 。 
































这 里 简单 解释 一 下 模型 训练 时 间 和 数据 变化 频率 的 关系 。 应 用 机 器 学 习 的 典 
型 目标 是 ， 面 对 数 据 变 化 频率 的 影响 , 尽 可 能 缩短 训练 时 间 。 最 坏 的 情况 是 ， 如 
果 训 练 模型 的 时 间 长 于 提升 模型 精度 所 需要 的 时 间 (比率 1 ), 那么 模型 就 永远 
” ”不 会 生成 可 直接 指导 当前 行动 的 结果 。 总体 而 言 , 高 比率 表示 需要 对 模型 或 数据 
你 、、 进行 一 些 审查 和 调整 ( 审查 在 较 低 的 置信 度 下 更 快 的 分 数 传递 是 否 传递 了 更 多 价 
值 ， 或 者 调整 环境 变量 可 控 部 分 的 变化 速度 )。 
比率 变 得 越 小 , 团队 就 越 有 可 能 用 模型 输出 来 指导 行动 并 产生 价值 。 这 个 比 
率 有 益 于 设计 自动 化 建 模 解决 方案 , 可 以 在 组 织 内 推广 , 具体 取决 于 其 在 建 模 环 
境 中 的 多 变性 和 可 量化 性 。 








备 选 模型 可 以 是 下 一 个 表现 最 佳 的 集成 配置 ,也 可 以 是 留待 观察 的 旧 模 型 ,在 复杂 的 操作 中 ， 
会 配置 一 些 挑战 者 来 处 理 不 同 的 假设 情景 ( 比如 如 果 该 地 区 的 温度 低 于 期 望 值 2 摄氏度, 或 如 果 
销售 明显 低 于 预期 )。 这 些 模型 使 用 训练 主 模型 的 数据 进行 训练 ， 或 者 用 模拟 情景 的 有 偏向 或 准 
备 好 的 数据 进行 训练 。 


如 果 挑 战 者 并 不 全 是 功能 相同 的 微小 变 体 ， 那 么 越 多 越 好 ( 能 提升 模型 稳健 性 和 性 能 )。 挑 
战 者 模型 还 能 为 创新 和 测试 提供 安全 场所 。 通过 观察 高 效 的 挑战 者 , 可 以 有 效 地 洞察 在 一 系列 可 
能 的 环境 变化 中 冠军 集成 的 稳健 度 。 


这 些 技 术 有 助 于 应 对 环境 的 不 断 变化 , 将 现 有 模型 应 用 于 实际 场景 。 本 章 还 探讨 了 将 机 天 学 
习 模 型 应 用 于 生产 时 会 出 现 的 复杂 情况 。 比 如 样本 间或 维度 间 的 数据 变化 可 能 导致 模型 性 能 逐渐 
降低 。 掌 握 了 数据 变化 的 概念 后 ， 就 能 更 好 地 识别 风险 并 预知 它 将 在 何 处 以 及 如 何 出 现 。 


下 面 将 介绍 提升 模型 稳健 性 的 技术 。 前 面 讲 过 如 何 观察 底层 数据 来 识别 模型 退化 风险 , 并 介 
绍 了 一 些 有 用 的 启发 式 方法 。 我 们 借鉴 了 现 有 的 决策 管理 方法 , 并 采用 了 一 种 广 受 好 评 、 在 应 用 
机 器 学 习 等 领域 应 用 已 久 的 手段 ， 即 冠军 /挑战 者 测试 。 该 过 程 有 助 于 在 比赛 中 组 织 并 测试 多 个 
模型 。 具有 前 脆性 的 模型 蔡 代 战略 和 高 效 的 性 能 检测 有 助 于 实现 对 模型 生命 周期 和 质量 更 方便 可 
控 的 管理 ， 同 时 可 提供 许多 有 价值 的 运营 见解 。 
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8.3 扩展 阅读 


关于 集成 和 集成 类 型 的 全 面 介 绍 ， 人 参见 Kaggle 参赛 者 Triskelion 的 文章 (http://mlwave.com/ 
kaggle-ensembling-guide/ )。 








有 关 赢 得 Netflix 大 奖 的 Pragmatic Chaos 的 介绍 ， 参 见 http:/www.stat.osu.edu/~dmsl/ 
GrandPrize2009 BPC BellIKorpdf。 Netflix 关于 业务 背景 的 变化 如 何 使 这 个 价值 100 万 美元 的 模型 失 
效 的 解释 ， 可 参考 Netflix Tech 的 博文 (http://techblog.netflix.com/2012/04/netflix-recommendations- 
beyond-5-stars.html )。 


要 想 了 解 如 何 将 随机 森林 集成 应 用 于 商业 环境 ， 以 及 各 种 重要 的 诊断 表 和 推理 过 程 ， 参 见 
Arshavir Blackwell 的 博文 ( https://citizennet.com/blog/2012/11/10/random-forests-ensembles-and- 


performance-metrics/ )。 




















有 关 随 机 森林 的 更 多 信息 ， 可 参考 scikit-learn 的 文档 ( http://scikit-learn.org/stable/modules/ 
generated/sklearn.ensemble.RandomForestClassifier.html )。 


XGboost 文档 ( https://xgboost.readthedocs.io/en/latest/tutorials/model.html ) 详细 介绍 了 梯度 提 
升 树 。 


有 关 Alexander Guschin 参加 精油 产品 分 类 大 赛 的 专 稿 ， 参 见 No Free Hunch 的 博文 (http:/blog. 
kaggle.com/2015/06/09/otto-product-classification-winners-interview-2nd-place-alexander-guschin/ )。 


关于 Alexander Minushkin 对 过 度 拟 合 所 做 的 抖动 测试 , 参见 https:/www.kaggle.com/miniushkin/ 
introducing-kaggle-scripts/jitter-test-for-overfitting-notebook。 


8.4 小 结 
本 章 内 容 丰 富 。 首 先 介 绍 了 集成 ,这 是 机 器 学 习 大 赛 中 最 强大 且 常 用 的 技术 之 一 ， 然 后 将 专 
业 知 识 和 实际 案例 相 结合 ， 进 一 步 介绍 了 将 集成 应 用 于 机 器 学 习 项 目 所 涉及 的 理论 和 代码 。 


此 外 , 本章 还 专门 探讨 了 将 模型 一 次 运行 数 周 、 数 月 时 会 产生 的 相关 问题 。 我 们 讨论 了 数据 
变化 的 含义 、 识 别 手 段 ， 以 及 预防 方法 ,还 介绍 了 如 何 构造 并 行 的 模型 集 ， 可 以 根据 季节 性 变化 
或 模型 集 的 性 能 变化 对 该 模型 集 进行 转换 。 


在 讲解 这 些 技术 的 过 程 中 , 花 了 大 量 时 间 研 究 实际 案例 , 旨 在 介绍 顶尖 数据 科学 家 需要 具备 
的 创造 性 思维 和 各 种 知识 。 


基于 本 书 所 讲 的 技术 知识 、 代 码 复 用 ,以 及 各 种 可 能 性 , 现在 你 可 以 处 理 实际 的 数据 建 模 问 
题 了 。 
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前 8 章 介绍 并 应 用 了 一 系列 技术 ， 它 们 有 助 于 在 很 多 应 用 场 境 中 扩充 数据 并 对 数据 建 模 。 


前 面 提 到 了 Python 库 的 组 合 , 尤其 是 NumPy 和 Theano ， 具 体 算法 中 应 用 了 其 他 一 些 库 。 前 
面 没有 深入 介绍 其 他 可 选 工具 、 这 些 工 具 的 特点 及 探讨 意义 。 

本 章 旨 在 介绍 其 他 一 些 可 用 的 关键 库 和 框架 。 这 些 工 具有 助 于 合理 化 和 简化 构造 和 应 用 模型 
的 过 程 。 本 章 将 展示 这 些 工 具 及 其 应 用 ，9.2 节 将 给 出 一 些 参考 资源 。 

成 功 解决 数据 科学 问题 并 成 为 专业 数据 科学 家 的 主要 因素 在 于 , 透彻 理解 算法 和 库 的 最 新 发 
展 。 作 为 专业 人 士 ， 数 据 科学 家 往往 高 度 依赖 所 用 数据 的 质量 ， 但 使 用 出 色 的 工具 也 非常 重要 。 


本 章 将 介绍 数据 科学 家 可 用 的 一 些 有 力 的 工具 、 它 们 的 优势 ,以 及 如 何在 工作 中 将 它们 与 前 
几 章 介绍 的 工具 和 技术 搭配 使 用 。 














9.1 可 选 的 开发 工具 
近 几 年 出 现 了 大 量 能 为 工作 流 带 来 便利 的 机 器 学 习 新 框架 。 它 们 往往 专注 于 具体 的 用 例 或 目 
标 。 这 让 它们 非常 实用 , 甚至 成 为 了 必 备 工具 , 但 这 也 意味 着 需要 用 到 多 个 用 于 改良 工作 流 的 库 。 
越 来 越 多 的 Python 机 器 学 习 新 项 目 力图 解决 具体 的 工作 流 问题 ， 其 中 两 个 库 已 纳入 了 工作 


流 ， 它 们 能 加 速 或 改进 前 几 章 完成 的 工作 ， 值 得 一 讲 。 本 章 将 介绍 Lasagne 和 TensorFlow， 探 
讨 两 个 库 中 的 代码 和 功能 ， 以 及 将 它们 纳入 工具 集 的 原因 。 


























9.1.1 Lasagne 简 介 


实践 中 有 时 用 Python 构造 模型 耗 时 超过 预期 。 但 这 种 做 法 对 复杂 的 模型 非常 有 效 ， 并 且 获 
益 颇 多 ( 比如 GPU 加 速 和 可 配置 性 )。 在 处 理 简单 案例 时 ， 类 似 于 Theano 的 库 用 起 来 会 相对 复 
杂 。 这 显然 不 太 好 ， 因 为 人 们 往往 想 使 用 简单 的 模型 ， 比 如 在 建立 基准 时 。 


Lasagne 是 由 深度 学 习 和 音乐 数据 挖掘 研究 团队 开发 的 , 用 作 Theano 的 一 个 接口 。 它 专门 用 9 
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于 为 新 模型 快速 高 效 地 设计 原型 。 

该 目标 决定 了 Lasagne 的 构造 方式 : 以 一 种 比 原生 Theano 代码 编写 的 运算 更 简单 且 更 易 理 
解 的 方式 调用 Theano 函数 ， 并 返回 Theano 表达 式 或 numpy 数据 类 型 。 

下 面 介 绍 Lasagne 背后 的 概念 模型 ， 应 用 一 些 Lasagne 代码 ， 并 探讨 该 库 能 给 当前 实践 带 来 
的 价值 。 






































认识 Lasagne 








Lasagne 采用 “ 层 ” 的 概念 。 这 是 机 带 学 习 中 的 一 个 常见 概念 ， 指 一 系列 神经 元 和 运行 规则 。 
这 些 规 则 用 于 获取 输入 值 ， 生 成 分 数 、 标 签 或 其 他 转换 结果 。 通 常 可 将 神经 网 络 视 作 一 组 层 ， 从 
层 的 一 端 输入 数据 ， 另 一 端 输出 值 (虽然 具体 的 处 理 方式 多 种 多 样 )。 


在 深度 学 习 中 ， 常 将 单独 的 层 视 作 “ 一 等 公民 "。 在 机 器 学 习 工 作 中 ,通常 基于 仅 使 用 少量 
参数 规范 〈 比如 节点 计数 、 偏 差 和 权重 值 ) 的 层 建 立 网 络 。 


近年 来 ， 数据 科 学 家 开始 利用 该 优势 配置 单个 层 。 如 今 ， 高 级 机 器 学 习 领 域 包含 子 模型 和 转 
化 后 输入 的 层 已 屡见不鲜 。 即 便 是 特征 ,也 可 能 根据 需求 跳 过 层 ， 或 者 中 途 给 模型 的 层 添加 新 特 
征 。 例 如 谷歌 用 于 解决 图 像 识别 问题 的 CNN 架构。 为 了 提升 性 能 , 这 些 网 络 大 规模 地 改进 了 层 。 


因此 ，Lasagne 将 层 作 为 基础 模型 部 件 来 处 理 是 十 分 合理 的 。 它 在 模型 创建 过 程 中 添加 的 功 
能 将 不 同 的 层 快速 直观 地 赦 加 到 模型 中 。 可 以 简单 地 调用 1asagne .1layers 中 的 一 个 类 ,将 类 
堆 受 在 自己 的 模型 上 。 实 现代 码 非 常 高 效 ， 如 下 所 示 。 


10 = lasagne.layers.InputLayer (shape=X.shape) 


















































11 = lasagne.layers.DenseLayer!\( 
10, num units=10, nonlinearity=lasagne.nonlinearities.tanh) 


12 = lasagne.layers.DenseLayer(11, num units=N_CLASSES, 
nonlinearity=lasagne.nonlinearities.softmax) 


只 需要 3 条 简单 的 语句 ， 就 可 以 用 简单 且 可 配置 的 函数 创建 出 网 络 的 基本 结构 。 

这 段 代 码 构造 了 一 个 3 层 模型 。 层 10 调用 了 InputLayer 类 ， 以 作为 模型 的 输入 层 。 基 于 
输入 的 预期 形状 ( 通过 shape 参数 定义 )， 该 层 将 输入 数据 集 转化 成 Theano 张 量 。 

接 下 来 的 层 11 和 层 12 都 是 全 连接 层 ( 也 称 “ 密 集 层 ”)。 层 12 定义 为 输出 层 ， 所 含 单元 数 
等 于 类 数 ， 层 11 则 使 用 了 同一 个 DenseLayer 类 来 构造 一 个 包含 10 个 神经 元 的 隐藏 层 。 

除了 DenseLayer 类 可 用 的 标准 参数 ( 权重、 偏差 、 单 元 数 和 非 线性 类 型 ) 的 配置 外 ， 还 


可 以 用 不 同类 部 署 完全 不 同 的 网 络 。Lasagne 为 各 种 常见 的 层 提供 了 类 ， 包 括 密集 层 、 卷 积 池 化 
层 、 递 归 层 、 标 准 化 层 和 噪声 层 等 。 此 外 , 还 有 一 个 用 途 特殊 的 层 类 , 它 能 提供 许多 额外 的 功能 。 
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如 果 需 要 定制 新 功能 , 用 户 也 可 以 轻松 地 自 定义 层 类 型 , 并 将 其 与 其 他 Lasagne 类 一 起 使 用 。 
然而 ， 对 于 大 多 数 原型 设计 和 快速 迭代 开发 环境 而 言 ， 这 需要 大 量 准备 工作 。 

Lasagne 提供 了 一 种 类 似 的 简洁 界面 ， 用 于 定义 网 络 的 损失 计算 。 

true_output = T.ivector('true_output') 


objective = lasagne.objectives.Objective(12, loss_function=lasagne. 
objectives.categorical_crossentropy) 





loss = objective.get_loss (target=true_ output) 


这 里 定义 的 loss 函数 是 常用 函数 之 一 ， 其 他 常用 函数 还 包括 平方 误差 、 二 类 问题 和 多 类 问 
题 的 匀 链 损失 ， 以 及 交叉 信 函 数 。 这 里 还 提供 了 用 于 验证 的 精确 度 评分 函数 。 





有 了 loss 函数 和 网 络 架 构 这 两 个 组 件 , 就 可 以 开始 训练 网 络 了 。 为 此 , 需要 多 写 几 行 代码 。 
all_params = lasagne.layers.get_all_ params (12) 

updates = lasagne.updates.sgd(loss, all params, learning_ rate=1) 

train = theano.function([10.input_ var, true_output], loss, updates=updates) 


get_output = theano.function([10.input_var], net_output) 


for n in xrange(100): 
train (XxX, y) 


这 段 代码 利用 theano 实例 的 内 置 函数 来 训练 示例 网 络 ， 并 用 loss 函数 迭代 地 进行 训练 ， 
以 对 给 定 输 入 数据 集 进行 分 类 。 


9.1.2 TensorFlow 简 介 














第 4 章 介绍 谷歌 对 CNN 的 使 用 时 ， 建 立 了 一 个 基于 卷 积 的 多 层 “ 性 能 怪兽 "”。 为 了 应 对 更 
复杂 的 挑战 ， 网 络 在 层 数 和 复杂 性 上 不 断 扩展 ， 如 何 构 造 并 监控 这 种 网 络 变 得 愈 发 重要 。 


为 了 处 理 该 问题 ， 谷 歌 的 机 器 智能 研究 团队 开发 了 一 个 名 为 TensorFlow 的 库 ， 用 于 简化 复 
杂 的 机 器 学 习 模 型 的 优化 和 建 模 。 








| 











TensorFlow 和 凭 两 点 实现 了 该 目标 : 一 是 在 常用 的 结构 ( 比如 NumPy 对 象 ) 上 提供 了 简洁 的 
编程 接口 ( 这 里 指 Python API )， 二 是 提供 了 功能 强大 的 故障 诊断 和 图 像 可 视 化 工具 ( 比如 
TensorBoard )， 大 大 便利 了 数据 结构 优化 。 






































1. 认识 TensorFlow 


数据 科学 家 可 以 用 TensorFlow 将 数据 转化 操作 设计 成 计算 图 上 的 一 个 流 。 可 以 扩充 和 调整 
这 张 图 ,也 可 以 随意 调整 单独 的 节点 ， 从 而 优化 单独 的 层 或 模型 组 件 细节 。TensorFlow 工作 流通 
常 包括 两 个 阶段 ， 第 一 阶段 为 构建 阶段 ， 即 图 的 生成 阶段 。 
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在 构建 阶段 中 , 可 以 用 针对 TensorFlow 的 Python API 编写 代码 ,与 Lasagne 类 似 , TensorFlow 
提供 了 编写 网 络 层 的 相对 简单 的 接口 ,只 需要 在 构造 层 之 前 确定 权重 和 偏差 。 接 下 来 的 示例 展示 
了 在 构造 卷 积 层 和 简单 的 最 大 池 化 层 ( 每 种 只 用 了 一 行 代码 ) 之 前 , 权重 和 偏差 变量 的 初始 设置 。 
此 外 ,还 用 tf.placeholger 来 生成 输入 数据 的 占 位 符 变量 。 


x = tf.placeholder (tf.float32, shape=[None, 784]) 
y_ = tf.placeholder (tf.float32, shape=[None, 10]) 















































W = tf.Variable(tf.zeros([5, 5, 1, 32])) 
b = tf.Variable(tf.zeros([32])) 


h_conv = tf.nn.relu(conv2d(x_image, W) + b) 
h_ pool = max_pool_ 2x2 (h_conv) 


可 以 扩展 该 结构 使 之 包括 一 个 softmax 输出 层 ， 就 像 对 Lasagne 做 的 那样 。 


W_out = tf.Variable(tf.zeros([1024,10])) 
B_out = tf.Variable(tf.zeros([10])) 


y = tf.nn.softmax(tf.matmul(h_conv, W_out) + b_out) 


与 直接 在 Theano 和 Python 库 中 编写 相 比 ， 可 以 看 到 迭代 时 间 明 显 缩短 。 与 Python 相 比 , 用 
C++ 编写 的 TensorFlow 也 提升 了 性 能 ， 在 执行 时 间 方 面具 有 优势 。 


接 下 来 要 训练 和 评估 模型 。 这 里 定义 训练 用 的 loss 函数 ( 此 处 指 交 叉 焙 )、 验 证 用 的 
accuracy 函数 ， 以 及 优化 策略 ( 此 处 指 最 陡 梯 度 下 降 法 )， 代 码 如 下 所 示 。 


Cross_entropy = tf.reduce mean(-tf.reduce_ suml(y_ * tf.logl(y), 
reduction indices=[1])) 














train step = tf.train.GradientDescentOptimizer(0.5) .minimize (cross_entropy) 
correct prediction = tf.equal (tf.argmax(y_,1), tf.argmax(y_,1)) 


accuracy = tf.reduce mean(tf.cast (correct prediction, tf.float32)) 


然后 就 可 以 开始 迭代 运行 模型 了 。 整 个 过 程 简单 直接 。 


sess.run(tf.initialize all variables()) 
for i in range(20000): 
batch = mnist.train.next_batch(50) 
if i%100 == 0: 
train accuracy = accuracy.eval (feed dict=t{ 
x:batch[0], y_: batch[1], keep_prob: 1.0}) 
print ("step %d, training accuracy %g"%$(i, train accuracy)) 
train_step.run(feed dict={x: batch[0], y_: batch[1], keep_prob: 0.5}) 











print ("test accuracy %g"%accuracy.eval (feed dict={ 
x: mist.test.images, y_: mist.test.labels, keep_prob: 1.0})) 


9.1 可 选 的 开发 工具 171 





2. 用 TensorFlow 迭代 改进 模型 


前 面 的 单个 模型 也 显示 了 使 用 TensorFlow 带 来 的 好 处 。 
供 简单 的 接口 ， 让 我 们 可 以 更 轻松 地 使 用 前 面 介 绍 的 算法 。 

但 如 前 所 述 ， 开发 急 始 模型 只 是 模型 开发 过 程 的 一 小 部 分 。 为 了 提升 模型 的 质量 , 往往 需要 
反复 测试 和 剖析 模型 。 这 通常 不 局 限于 用 单个 库 或 技术 来 实现 , 而 且 模 型 间 的 测试 和 监控 解决 方 
案 也 并 非 一 成 不 变 。 


TensorFlow 可 用 于 在 迭代 过 程 中 深入 了 解 模 型 ， 这 便 是 模型 开发 的 执行 阶段 。 在 该 阶段 中 ， 
可 以 利用 TensorFlow 团队 提供 的 工具 来 探索 并 改善 模型 。 


这 些 工 具 中 最 重要 的 可 能 是 TensorBoard 了 , 它 可 以 实现 模型 的 可 视 化 。TensorBoard 有 多 种 
功能 ， 包 括 显示 基本 模型 信息 ( 包括 测试 和 训练 每 次 迭代 时 的 性 能 测度 ) 的 仪表 板 ( 见 图 9-1 )。 


它 能 为 开发 复杂 结构 和 训练 方法 提 
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9-1 


此 外 ， 0 仪表 板 还 提供 





的 变化 范围 








:了 底层 信息 ， 其 中 包括 模型 每 一 层 的 权重 、 偏 差 和 激活 值 
是 迭代 过 程 中 非常 有 用 的 诊断 信息 。 这 些 数据 易于 获取 , 且 很 有 价值 ( 见 图 9-2 )。 9 
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图 9-2 
此 外 ，TensorBoard 可 生成 给 定 模型 的 张 量 流 的 细节 图 。 张 量 是 n 维 数据 数组 ( 此 处 指 n 个 
特征 )， 它 与 “输入 数据 集 ” 一 词 关 系 紧 密 。 应 用 于 张 量 的 一 系列 运算 叫 作 “ 张 量 流 ”， 这 是 
TensorFlow 中 的 一 个 基本 概念 。 优 化 和 调试 机 器 学 习 模 型 时 ,最 重要 的 是 了 解 模型 及 其 运行 的 信 
息 ， 即 使 是 很 底层 的 信息 〈 见 图 9-3 )。 
cross_entropy train accuracy ross_en 
a i 
predictions ee L 
人 本 
图 9-3 











TensorBoard 图 像 能 通过 变量 细节 展示 模型 的 结构 。 概 览 之 后 ， 可 以 深入 研究 模型 的 各 个 组 


件 和 连续 的 子 元 素 。 本 例 中 ， 可 以 看 到 第 二 个 网 络 层 的 dropout E 
见 ， 可 以 判断 出 下 次 迭代 需要 调整 的 地 方 。 


函数 中 发 生 的 特定 运算 。 基 于 所 





这 种 透明 度 不 太 常见 ,而 且 非 常 有 助 于 调整 模型 组 件 , 尤其 当 模 型 元 素 或 层 表 现 不 佳 时 (〈 比 


如 TensorBoard 图 像 可 以 显示 层 的 元 参数 值 或 网 络 的 整体 表现 ) 
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可 以 通过 事件 日 志 创 建 TensorBoard, 也 可 以 在 TensorFlow 运行 时 生成 TensorBoard。 在 日 常 
使 用 TensorFlow 的 开发 过 程 中 ，TensorBoard 很 容易 生成 和 使 用 ( 见 图 9-4 )。 








dropout 





-- 四 none a 
( Wx_plusb ) 














图 9-4 

2016 年 4 月 底 ，DeepMind 团队 加 入 了 谷歌 大 脑 团队 ， 和 许多 研究 人 员 及 开发 人 员 一 起 使 用 
TensorFlow。 谷 歌 已 将 TensorFlow 开源 ， 并 承诺 将 继续 支持 TensorFlow， 助 力 模 型 开发 和 改进 。 
9.1.3” 何 时 使 用 这 些 库 


阅读 本 书 时 ， 读 者 可 能 会 有 疑问 :“ 既 然 如 此 ， 为 什么 不 直接 在 开头 就 介绍 这 个 库 昵 ? ” 当 
本 章 介 绍 一 些 可 简化 工作 的 优良 接口 时 ， 读 者 可 能 会 不 由 地 提问 :“ 为 什么 要 花 时 间 研 究 Theano 
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函数 和 其 他 底层 信息 呢 ?” 














当然 ,我 提倡 使 用 最 好 的 工具 , 尤其 是 对 于 原型 设计 工作 来 说 ,因为 原型 设计 的 价值 更 多 在 
于 理解 大 概 的 适用 范围 或 识别 特定 的 问题 类 型 。 下 面 说 明 本 章 才 介 绍 这 些 库 的 三 个 原因 。 

第 一 个 原因 是 这 些 工具 的 作用 有 限 。 它 们 确 有 不 少 功 能 ,根据 领域 和 领域 中 问题 的 性 质 ， 有 
的 数据 科学 家 能 用 它们 解决 大 部 分 深度 学 习 需 求 。 但 超过 特定 性 能 水 平和 问题 复杂 程度 后 ， 就 需 
要 理解 如 何 用 Theano 构造 模型 、 从 零 开 始 构造 评分 函数 ， 或 利用 本 书 提 到 的 其 他 技术 。 


着 重 底层 实现 的 另 一 个 原因 与 涉及 的 技术 逐渐 成 熟 有 关 。 如 今 Lasagne 和 TensorFlow 当然 值 
得 探讨 和 推荐 。 此外, 很 多 项 目 ( 本章 未 提 及 的 一 些 杰出 框架 , 比如 Keras 、Blocks 和 Pylearn2 ) 





























是 基于 Theano 的 。 














即使 是 现在 , 其 他 库 和 工具 在 一 两 年 内 变 成 讨论 话题 或 默认 工作 环境 也 是 完全 有 可 能 的 。 该 














领域 发 展 极 快 ， 主 要 是 因为 关键 企业 和 研究 团队 的 深 必 
到 了 使 用 极限 ， 或 者 他 们 找到 了 改进 工作 的 方法 。 

















of 





也 们 一 直 在 创建 新 工具 ,因为 旧 工具 达 





注重 底层 的 男 一 个 原因 是 ， 本 书 与 之 相关 。 本 书 将 理论 和 代码 相 结 合 ， 用 代码 来 教授 理论 。 
将 算法 的 原理 抽象 化 ,只 讨论 如 何 用 它们 处 理 具体 问题 当然 会 很 吸引 人 。 本 章 介绍 的 工具 能 让 从 
业者 在 一 些 问题 上 取得 不 错 的 成 绩 , 而 无 须 理解 调用 的 函数 , 但 我 认为 这 不 是 培养 数据 科学 家 的 




















好 方法 。 





























如 果 想 处 理 微妙 而 难 解 的 数据 问题 , 需要 能 修改 和 自 定义 算法 , 还 需要 懂得 如 何 选 择 合适 的 














解决 方案 ， 而 本 书 给 出 了 一 些 相关 细节 。 此 外 , 本 书 因 篇 幅 所 限 未 能 提供 一 些 更 具体 的 信息 。 如 
果 掌 握 了 这 些 细节 ， 就 能 灵活 而 透彻 地 应 用 深度 学 习 算法 。 





清楚 哪些 工具 能 完成 任务 ， 而 哪些 不 能 同样 重要 。 目 前 ，Lasagne 非常 适合 这 样 一 种 情况 : 











为 了 建立 基准 或 早期 测试 而 开发 新 模型 ， 在 这 种 情况 下 需要 优先 考虑 迭代 速度 和 获取 结 
此 外 ，TensorFlow 适合 模型 开发 周期 的 后 期 。 当 收益 不 再 像 前 期 那样 易 得 ， 需 要 花费 大 量 时 























间 调 试 和 改进 模型 时 ，TensorFlow 相对 快速 的 迭代 就 成 了 明显 优势 ， 但 这 其 实 是 TensorBoard 的 


诊断 工具 带 来 了 压倒 性 的 附加 价值 。 


因此 ， 应 将 这 两 个 库 加 入 工具 集 。 根 据 当前 问题 的 性 质 ， 这 些 库 以 及 其 他 库 将 会 派 上 用 场 。 


9.2 扩展 阅读 
Lasagne 用 户 指南 非常 全 面 ， 值 得 一 读 。 
也 可 以 查看 TensorFlow 的 使 用 说 明 。 
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9.3 小 结 
最 后 一 章 ， 是 对 之 前 有 关 算 法 、 配 置 和 诊断 的 探讨 的 拓展 , 介绍 了 在 实现 深度 学 习 算法 时 能 
提升 体验 的 工具 。 


本 章 介绍 了 使 用 Lasagne 的 好 处 。 作 为 Theano 的 接口 ，Lasagne 能 加 速 和 简化 模型 的 早期 原 
型 设计 。 本 章 还 研究 了 TensorFlow, 这 个 由 谷歌 开发 的 库 可 用 于 辅助 深度 学 习 模 型 的 调整 和 优化 。 
它 能 轻松 实现 模型 性 能 的 清晰 可 视 化 ， 且 有 助 于 简化 复杂 模型 的 诊断 和 调试 。 


这 两 种 工具 在 我 们 的 工作 流程 中 都 有 一 席 之 地 ， 适 用 于 不 同 的 问题 。 
本 书 介绍 了 各 种 高 级 机 器 学 习 技 术 , 涵盖 了 基本 算法 和 概念 , 以 及 如 何 运 用 强大 而 流行 的 工 
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除了 这 些 技术 ,本 书 还 想 传达 一 个 更 深刻 的 概念 ， 这 个 基础 概念 很 难 教授 和 学 习 ， 同 时 也 是 
实现 机 需 学 习 最 佳 性 能 的 关键 。 


机 器 学 习 领 域 发 展 极 快 。 这 种 速度 体现 在 几乎 每 周 学 术 期 刊 或 行业 白皮书 上 都 会 发 布 新 得 
分 。 例如 对 MNIST 这 样 的 案例 的 训练 迅速 从 意义 重大 的 挑战 变 成 了 “儿戏 ”( 交尾 花 数据 集 的 深 
度 学 习 版 )。 此 外 ， 该 领域 还 迎 来 了 新 的 重大 挑战 : CIFAR-10、CIFAR-100。 


与 此 同时 , 该 领域 的 发 展 出 现 了 循环 。Yann LeCun 等 学 者 在 20 世纪 80 年 代 提 出 的 概念 逐渐 
复苏 , 因为 计算 结构 和 资源 增长 使 得 大 批量 的 实际 数据 更 方便 使 用 。 为 了 最 大 限度 利用 一 些 新 技 
术 ， 必 须 理 解 那些 数 十 年 前 定义 的 概念 ， 而 它们 又 是 基于 更 久之 前 定义 的 其 他 概念 而 定义 的 。 

本 书 旨 在 平衡 各 方 。 掌 握 前 沿 动态 和 先进 技术 非常 重要 , 理解 新 定义 的 技术 概念 以 及 近 几 年 
所 做 的 调整 同样 重要 。 

最 重要 的 是 ,本 书展 示 了 这 些 体系 结构 和 方法 的 可 塑性 。 在 数据 科学 实践 中 ,思路 往往 殊 途 
同 归 : 针对 特定 问题 的 最 佳 解决 方案 也 是 特定 的 。 

这 就 是 Kaggle 大 赛 获 胜 者 进行 大 量 特征 准备 和 结构 调整 的 原因 ， 也 是 谷歌 开发 TensorFlow 
来 显示 模型 架构 的 细微 属性 的 原因 。 能 流畅 地 调整 、 实 现 并 组 合算 法 的 理论 和 应 用 时 ,就 意味 着 
真正 掌握 了 机 器 学 习 技 术 。 

纵 观 本 书 提 及 的 诸多 技术 和 案例 , 希望 能 将 对 数据 问题 的 思考 ,以 及 对 算法 的 操作 和 配置 尽 
句 相 授 ， 助 你 成 为 数据 科学 家 。 本 书 “ 扩 展 阅 读 ” 中 推荐 的 许多 案例 意 在 扩充 知识 ， 助 你 进一步 
探究 本 书 所 授 技能 。 

最 后 ， 祝 你 在 模型 构建 和 算法 配置 过 程 中 一 切 顺 利 ， 也 希望 你 能 享受 其 中 ， 从 中 获 益 。 



















































































代码 运行 要 求 








本 书 内 容 利 用 了 公开 可 用 的 数据 和 代码 ， 包 含 开源 的 


Python 库 和 框架 。 每 章 的 示例 代码 都 





附带 一 个 README 文件 ， 其 中 记录 了 运行 该 章 脚本 中 提供 的 代码 所 需要 的 所 有 库 。 方 便 起 见 ， 





我 们 将 这 些 文件 的 内 容 整 理 如 下 。 





需要 注意 的 是 ,前 几 章 要 求 安装 的 库 ， 后 续 几 章 的 代码 也 可 能 会 用 到 。 这 些 库 可 以 通过 关键 


























词 识 别 。 尤 其 重要 的 是 , 要 设置 好 第 1 章 中 提 及 的 库 ， 以 便 后 续 章 节 使 用 。 每 一 章 的 要 求 如 下 表 





























所 示 。 
章 号 要 求 
。Python 3 (推荐 3.4 ) 
1 “sklearn ( NumPy, SciPy ) 
。matplotlib 
D4 。theano 
2 。Semisup-learn 
。Natural Language Toolkit ( NLTK ) 
。BeautifulSoup 
7 “Twitter API 账户 
8 * XGBoost 
; 。 Lasagne 
。 TensorFlow 
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四 porerom eon 令 被 誉 为 内 容 最 全 面 的 机 器 学 习 教 材 ，Machine Learning 期 刊 主编 力作 








that Make Sense of Data 作者 : Peter Flach 
译 者 : 段 菲 
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Python 机 器 学 习 基 础 教程 
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令 以 机 器 学 习 算 法 实践 为 重点 ， 使 用 scikit-learn 库 从 头 构建 机 器 学 习 应 用 
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ntroduction to Python 
以 机 扣 学 习 算法 实 m 库 从 头 构建 机 得 学 习 应 用 
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i 作者 : Andreas C. Muller，Sarah Guido 
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译 者 : 张 亮 











Python 机 器 学 习 经 典 实例 


- 令 监督 学 习 技术 、 预 测 建 模 、 无 监督 学 习 算 法 等 前 沿 话 题 的 实例 代码 展示 
上 =a 令 来 自 Kaggle 的 经 典 数据 集 和 机 器 学 习 案 例 
令 用 流行 的 Python 库 scikit-learn 解 决 机 器 学 习 问 题 





Python 

机 器 学 习 经 典 实 例 
作者 : Prateek Joshi 
hr 译 者 : 陶 俊 杰 ， 陈 小 莉 
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Feature Engineering Made Easy 
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Python 数据 科学 与 机 器 学 习 


4 寓 复 杂 问 题 于 简单 实践 ， 轻 松 掌握 Python 数据 分 析 和 机 器 学 习 技 能 


作者 : Frank Kane 
译 者 : 陈 光 欣 


特征 工程 入 门 与 实践 





令 从 零 入 手 ， 全 面 了 解 特征 工程 
令 提升 机 器 学 习 算法 的 效率 、 准 确 率 





作者 : Sinan Ozdemir，Divya Susarla 
译 者 : 庄 嘉 盛 


精通 特征 工程 


4 通过 Python 示例 掌握 特征 工程 基本 原则 和 实际 应 用 ， 增 强 机 器 学 习 算 法 效果 


作者 : 爱丽 丝 " 郑 ， 阿 曼 达 。 卡 萨 丽 
译 者 : 陈 光 欣 
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关注 @ 图 灵 教 育 每 日 分 享 |T 好 书 
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bt 版 , 电子 书 ,《 码 农 》 杂 志 , 医 














近 些 年 机 器 学 习 发 展 迅猛 ， 早 已 从 科研 领域 延伸 到 了 商业 领域 ， 新 技术 和 新 应 用 不 断 涌 
现 ， 其 中 Python 语言 光 基 难 掩 。 越 来 越 多 的 开发 者 和 研究 人 员 选 择 了 Python，Python 也 助 推 
了 机 器 学 习 和 数据 科学 的 发 展 。 


本 书 是 基于 Python 的 机 器 学 习 指 南 ， 全 面 介绍 了 各 种 强大 的 机 器 学 习 技 术 ， 不 仅 清晰 闻 释 
了 基本 的 算法 和 概念 ， 而 且 运 用 丰富 的 Python 代码 示例 展示 了 各 种 复杂 算法 的 实现 与 应 用 ， 此 
外 还 介绍 了 如 何 使 用 流行 的 机 器 学 习 库 和 框架 。 对 于 想 要 了 解数 据 科学 领域 中 的 新 进展 ， 以 提 
高 自身 技能 的 Python 开发 人 员 、 分 析 师 和 数据 科学 家 来 说 ， 本 书 值得 一 读 。 


利用 无 监督 学 习 技术 识别 数据 集 的 内 在 模式 与 结构 
掌握 受 限 玻 尔 效 曼 机 和 深度 信念 网 络 的 工作 原理 
使 用 堆 肢 降 噪 自 编码 机 构建 深度 架构 

应 用 卷 积 神经 网 络 解决 图 像 分 类 问题 

学 习 CPLE、 自 学 习 和 S3VM 等 半 监 督学 习 技术 
运用 强大 的 特征 工程 技术 提升 模型 性 能 

使 用 集成 技术 提升 深度 学 习 模 型 的 效率 

介绍 Lasagne、TensorFlow 等 机 器 学 习 工 具 
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看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 
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